如何确定缺少数据的生存模型是否合适?

机器算法验证 生存 缺失数据
2022-03-31 20:13:19

稍微简化一下,我有大约一百万条记录,记录了一个跨越大约十年的系统中人们的进入时间和离开时间。每条记录都有进入时间,但不是每条记录都有退出时间。系统中的平均时间约为 1 年。

缺少退出时间的原因有两个:

  1. 在捕获数据时,此人尚未离开系统。
  2. 没有记录此人的离开时间。这恰好说 50% 的记录

感兴趣的问题是:

  1. 人们在系统中花费的时间是否更少,时间少了多少。
  2. 是否记录了更多的退出时间,以及有多少。

我们可以通过说出口被记录的概率随时间线性变化来建模,并且系统中的时间有一个 Weibull,其参数随时间线性变化。然后,我们可以对各种参数进行最大似然估计,并观察结果并认为它们是合理的。我们选择了 Weibull 分布,因为它似乎用于测量寿命,并且说起来很有趣,而不是比伽马分布更好地拟合数据。

我应该在哪里寻找有关如何正确执行此操作的线索?我们在数学上有些精通,但在统计上却不是非常精通。

2个回答

查看您的数据是否为 ​​Weibull 的基本方法是绘制累积风险对数与时间对数的关系,并查看直线是否适合。可以使用非参数 Nelson-Aalen 估计器找到累积风险。如果您使用协变量拟合您的数据并且随后有一些参考资料,则 Weibull 回归有类似的图形诊断

Klein & Moeschberger文本非常好,涵盖了很多关于参数和半参数模型的模型构建/诊断(尽管主要是后者)。如果您在 R 中工作,那么 Theeau 的书非常好(我相信他编写了生存包)。它涵盖了很多 Cox PH 和相关模型,但我不记得它是否涵盖了很多参数模型,例如您正在构建的模型。

顺便说一句,这是否是一百万个主题,每个主题都有一个进入/退出或针对一些较小人群的周期性进入/退出事件?你是否在调整你解释审查机制的可能性?

您可以使用估计模型来预测系统中所有人的退出时间。然后,您可以将估计的退出时间与实际退出时间(您拥有此数据的位置)进行比较,并计算诸如RMSE之类的指标来评估您的预测有多好,这反过来又会给您一种模型拟合的感觉。另请参阅此链接