我正在尝试使用逻辑回归模型进行离散时间生存分析,但我不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。
这是设置:
我正在查看五年时间窗口内的组成员资格。每个成员都有该成员在组中的每个月的成员资格的月度记录。我正在考虑在五年窗口期间开始成员资格的所有成员(以避免与较早加入的成员出现“左审查”问题)。每条记录都将按时间编入索引,时间一是会员加入的月份。所以,一个会员住了两年半,就会有三十个月的记录,从一到三十不等。每条记录也将被赋予一个二进制变量,对于会员资格的最后一个月,该变量的值为 1,否则为零;二进制变量的值为 1 标记成员已离开组的事件。对于会员资格持续超过五年分析窗口的每个成员,
因此,建立逻辑回归模型来预测二元事件变量的值。到现在为止还挺好。评估二元预测模型的典型方法之一是测量保留样本的提升。对于我为预测成员资格结束事件而建立的逻辑回归模型,我已经计算了非事件与事件的比率为 5 比 1 的保留数据集的提升。我将预测值分成十分位数。具有最高预测值的十分位数包含百分之七十,提升超过四。前两个十分位数加起来包含保留中所有十分位数的 65%。在某些情况下,这将被认为是一个相当不错的预测模型,但我想知道它是否足以进行生存分析。
让是个体的风险函数月内, 然后让是个体的概率活过一个月.
以下是我的基本问题:
是离散危险函数,,每个月不存活(离开组)的条件概率?
来自逻辑回归模型的预测值是对风险函数的估计吗?(即,是等于个体的模型预测值月内,还是需要做更多的事情来获得风险函数估计?)
是个体生存到 q 月的概率等于 1 减去从第一个月到第一个月的危险函数的乘积,也就是说,确实 ?
是平均值超过所有个人每次总人口平均生存概率的合理估计?
总体人口平均生存概率图是否应该类似于月度 Kaplan-Meier 图?
如果这些问题的答案是否定的,那么我有一个严重的误解,并且真的可以使用一些帮助/解释。此外,是否有任何经验法则来说明二元预测模型需要多好才能产生准确的生存概况?