生存分析:连续时间与离散时间

机器算法验证 生存 领带
2022-02-16 03:34:50

我对如何决定在生存分析中将时间视为连续时间还是离散时间感到困惑。具体来说,我想使用生存分析来确定对男孩和女孩生存(直到 5 岁)的影响差异最大的儿童和家庭变量。我有一个儿童年龄(以月为单位)的数据集,以及儿童是否还活着、死亡年龄(以月为单位)以及其他儿童和家庭级别变量的指标。

由于时间以月为单位记录,并且所有儿童都在 5 岁以下,因此存在许多相关的生存时间(通常以半年为间隔:0 个月、6 个月、12 个月等)。根据我所读到的关于生存分析的内容,有许多相关的生存时间让我认为我应该将时间视为离散的。但是,我读过其他几项关于生存时间的研究,例如,人年(因此肯定存在相关的生存时间)和使用 Cox 比例风险等连续时间方法。

我应该使用哪些标准来决定将时间视为连续时间还是离散时间?对于我的数据和问题,使用一些连续时间模型(Cox、Weibull 等)对我来说具有直观意义,但我的数据的离散性和相关生存时间的数量似乎表明并非如此。

4个回答

生存模型的选择应以潜在现象为指导。在这种情况下,它似乎是连续的,即使数据是以某种离散的方式收集的。一个月的决议在 5 年的时间内就可以了。然而,在 6 个月和 12 个月时的大量关系让人想知道您是否真的有 1 个月的精度(预期为 0 的关系 - 这是一个特殊值,实际发生相对较多的死亡)。我不太确定你能做些什么,因为这很可能反映了事后四舍五入而不是区间审查。

我怀疑如果你使用连续时间模型,你会想要使用间隔审查,这反映了你不知道失败的确切时间的事实,只是失败发生的间隔。如果您使用最大似然法拟合带有区间审查的参数回归模型,则绑定的生存时间不是 IIRC 的问题。

在大多数分析中,生存时间是相同的,但在特定事件中大而明确的关系是令人不安的。我会认真思考研究本身,它如何收集数据等。

因为,在某些方法论需要使用一种或另一种时间之外,如何对生存进行建模应该取决于底层过程在世界上是离散的还是连续的。

如果您的某些人的协变量随时间而变化(例如,在您的示例中,家庭收入可能在孩子的一生中发生变化),生存模型(参数和 cox 模型)要求您将数据分割成由定义的离散区间变化的协变量。

我发现这个由 German Rodriguez 撰写的 pdf讲义很有帮助。