关于离散时间生存分析的基本问题

机器算法验证 生存 离散数据 冒险 卡普兰迈尔
2022-02-15 08:11:58

我正在尝试使用逻辑回归模型进行离散时间生存分析,但我不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。

这是设置:

我正在查看五年时间窗口内的组成员资格。每个成员都有该成员在组中的每个月的成员资格的月度记录。我正在考虑在五年窗口期间开始成员资格的所有成员(以避免与较早加入的成员出现“左审查”问题)。每条记录都将按时间编入索引,时间一是会员加入的月份。所以,一个会员住了两年半,就会有三十个月的记录,从一到三十不等。每条记录也将被赋予一个二进制变量,对于会员资格的最后一个月,该变量的值为 1,否则为零;二进制变量的值为 1 标记成员已离开组的事件。对于会员资格持续超过五年分析窗口的每个成员,

因此,建立逻辑回归模型来预测二元事件变量的值。到现在为止还挺好。评估二元预测模型的典型方法之一是测量保留样本的提升。对于我为预测成员资格结束事件而建立的逻辑回归模型,我已经计算了非事件与事件的比率为 5 比 1 的保留数据集的提升。我将预测值分成十分位数。具有最高预测值的十分位数包含百分之七十,提升超过四。前两个十分位数加起来包含保留中所有十分位数的 65%。在某些情况下,这将被认为是一个相当不错的预测模型,但我想知道它是否足以进行生存分析。

h[j,k]是个体的风险函数j月内k, 然后让S[j,k]是个体的概率j活过一个月k.

以下是我的基本问题:

  1. 是离散危险函数,h[j,k],每个月不存活(离开组)的条件概率?

  2. 来自逻辑回归模型的预测值是对风险函数的估计吗?(即,是h[j,k]等于个体的模型预测值j月内k,还是需要做更多的事情来获得风险函数估计?)

  3. 是个体生存到 q 月的概率j等于 1 减去从第一个月到第一个月的危险函数的乘积q,也就是说,确实 S[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])?

  4. 是平均值S[j,k]超过所有个人j每次k总人口平均生存概率的合理估计?

  5. 总体人口平均生存概率图是否应该类似于月度 Kaplan-Meier 图?

如果这些问题的答案是否定的,那么我有一个严重的误解,并且真的可以使用一些帮助/解释。此外,是否有任何经验法则来说明二元预测模型需要多好才能产生准确的生存概况?

1个回答

认为K是最大值k(即在您的数据中观察到的最大月份/期间)。

  1. 这是具有时间完全离散参数化和参数向量的风险函数B条件变量的向量Xhj,k=eαk+BX1+eαk+BX. 风险函数也可以围绕时间的替代参数化构建(例如,包括k或它作为模型中的变量的函数),或两者的混合。

    基线logit 风险函数描述了事件及时发生的概率k,以幸存到时间为条件k. 添加预测变量 (X) 对模型的进一步约束。

  2. 不,逻辑回归估计(例如α^1,,α^K,B^) 本身不是危险函数。逻辑回归模型:logit(hj,k)=αk+BX,并且您需要执行上面(1)中的反logit变换以获得危险估计。

  3. 是的。虽然我会记下它S^j,q=i=1q(1hj,i). 生存函数是按时间不经历事件的概率k,当然也可能以X.

  4. 这是一个微妙的问题,不确定我是否有答案。不过,我确实有疑问。:) 由于右删失和事件发生,每个时间段的样本量随着时间的推移而减少:您会在计算平均生存时间时考虑到这一点吗?如何?“人口”是什么意思?招募到您的研究中的个人普遍适用于哪些人群?还是您的意思是一些统计上的“超级人口”概念?在这些模型中,推理是一个很大的挑战,因为我们估计βs 和他们的标准错误,但需要做 delta 方法后空翻来获得标准错误h^j,k,并且(根据我自己的工作)得出有效的标准错误S^j,k只能在纸上工作(我无法获得正确的 CI 覆盖S^j,k在条件模型中)。

  5. 您可以使用类似 Kaplan-Meier 的阶跃函数图,也可以使用直线图(即用一条线连接时间段之间的点)。只有当“离散时间”的概念本身承认细分时段的可能性时,您才应该使用后一种情况。您还可以绘制/传达累积发病率的估计值(即1Sj,k...至少流行病学家通常会以这种方式定义“累积发病率”,该术语在竞争风险模型中的使用方式不同。此处也可以使用“吸收”一词。)。