分类变量的生存分析

机器算法验证 分类数据 生存
2022-04-15 20:33:07

我每年观察到不同类别(A、B、C 等)的受试者的事件时间数据。据我了解,我的数据既正确又经过区间审查(?)。

受试者的类别可以逐年改变,例如 A 代表第 0 年到第 2 年,B 从第 3 年开始代表主题 1 等等。每个主题都可以独立于其类别接触“事件”。暂时我对过渡效果不感兴趣。

可以为每个类别的 1 年故障概率建议哪些估算器?

3个回答

您可以将每个患者分成多个记录。例如,如果 Patient Joe 被跟踪 5 年,两年后从 A 切换到 B,两年后从 B 切换到 C,他将是三个记录。Joe #1 在第 0 年进入并在第 2 年离开。Joe #2 在第 2 年进入并在第 4 年离开,Joe #3 在第 4 年进入并在第 5 年离开。

然后,您使用稳健的方差估计器来处理您的数据中存在一些非独立性这一事实,并且您可以运行任何您想要的生存分析。我怀疑如果您正在寻找 1 年的失败概率,您会使用一些生存曲线的参数估计器或 Kaplan-Meyer 类型分析。

最简单的方法是将每个主题分成多个人年,每一年只与一个类别和一个事件是/否指标相关联。您可以毫无困难地从中获得年度概率。请注意,这将假设概率随时间保持不变。泊松回归可用于推理。

如果我正确理解您的描述,您的案例属于离散时间生存/危害分析(离散时间是指连续过程的离散间隔,而不是事件仅在固定间隔之后发生)。

在这种情况下,我会遵循 Aniko 的建议,并使用以人年作为观察值的逻辑回归模型,事件发生作为因变量,类别作为时变解释变量(当然还有时间)。

为这种情况推荐的应用手册是 Singer & Willett 的 Applied Longitudinal Data Analysis,ch。10-12。有关不同程序的工作示例/语法,请参见此处。