在生存分析中,为什么我们使用半参数模型(Cox 比例风险)而不是全参数模型?

机器算法验证 生存 cox模型
2022-01-31 03:17:20

我一直在研究 Cox Proportional Hazards 模型,这个问题在大多数文本中都被掩盖了。

Cox 建议使用部分似然法拟合 Hazard 函数的系数,但为什么不使用最大似然法和线性模型拟合参数生存函数的系数呢?

在您审查数据的任何情况下,您都可以找到曲线下的区域。例如,如果您的估计值为 380,标准差为 80,并且样本被删失 >300,则假设正常误差,该样本在似然计算中的概率为 84%。

2个回答

如果您知道数据遵循的参数分布,那么使用最大似然法和分布是有意义的。Cox Proportional Hazards 回归的真正优势在于,您仍然可以在不知道(或假设)分布的情况下拟合生存模型。您举了一个使用正态分布的例子,但大多数生存时间(以及 Cox PH 回归用于的其他类型的数据)并不接近正态分布。有些可能遵循对数正态分布、威布尔分布或其他参数分布,如果您愿意做出这样的假设,那么最大似然参数方法就很好。但在许多现实世界的情况下,我们不知道合适的分布是什么(甚至是足够接近的近似值)。使用审查和协变量,我们不能做一个简单的直方图并说“这对我来说看起来像一个......分布”。因此,拥有一种无需特定分发即可运行良好的技术非常有用。

为什么使用危害而不是分布函数?考虑以下陈述:“A 组的人在 80 岁时死亡的可能性是 B 组的人的两倍”。现在这可能是正确的,因为 B 组的人往往比 A 组的人活得更长,或者可能是因为 B 组的人往往寿命更短,而且他们中的大多数人在 80 岁之前就已经死了,给出的概率非常小他们中的一些人在 80 岁时死亡,而 A 组中有足够多的人活到 80 岁,以至于他们中的相当一部分人将在那个年龄死亡,从而在那个年龄死亡的可能性要高得多。因此,同样的说法可能意味着在 A 组中比在 B 组中更好或更差。更有意义的是,在那些活到 80 岁的人(每个组中)中,有多少比例会在他们 81 岁之前死亡。那就是危险(危险是分布函数/生存函数等的函数)。危险在半参数模型中更容易处理,然后可以为您提供有关分布的信息。

“我们”不一定。生存分析工具的范围从完全非参数(如 Kaplan-Meier 方法)到您指定潜在危害分布的完全参数模型。每个都有其优点和缺点。

半参数方法,如 Cox 比例风险模型,可以让您摆脱不指定潜在风险函数的情况。这可能会有所帮助,因为我们并不总是知道潜在的危险函数,而且在许多情况下也不关心例如,许多流行病学研究想知道“暴露 X 是否会缩短距离事件 Y 的时间?” 他们关心的是有 X 和没有 X 的患者之间的差异。在这种情况下,潜在的危害并不重要,错误指定它的风险比不知道它的后果更糟糕。

然而,有时这也不是真的。我已经使用完全参数模型完成了工作,因为潜在的危险有趣。