Cox回归和Tobit回归之间有什么关系?

机器算法验证 回归 生存 审查
2022-04-10 04:03:00

为了处理审查数据,我看到一些研究人员使用审查回归方法,如Tobit 回归,一些使用经典的生存分析模型,如Cox 回归

我知道从数学的角度来看,Cox 回归和 Tobit 回归是两个不同的模型。

我的问题:这两种方法的优缺点是什么?他们分别擅长解决什么问题?他们有不同的假设吗?

2个回答

缩写型号说明

Cox 模型是一种生存模型,它通过观察到的数据等级巧妙地对风险比进行建模,无需对潜在的基线分布做出假设,但仍需要比例风险假设。

Tobit 模型本质上是标准线性回归,除了它还可以处理删失数据。假设的分布是正态的。

优点和缺点

考克斯型号:

优点:不需要对基线分布做出假设。这对于生存分析非常重要:事件发生时间数据往往非常不正常,通常带有极重的右尾。此外,通过仅考虑数据的等级,您拥有一个对预期异常值更稳健的模型。

缺点:可能很难解释系数效应。

托比特型号:

优点:对大多数分析师已经熟悉的模型进行简单扩展以允许审查,即如果您的所有数据都被观察到并且适合线性回归(在缺点部分提到了一个警告),那么使用 Tobit 模型将是合适的.

缺点:需要假设线性效应和高斯误差。在某些应用中,这是完全合适的,但事件发生时间数据(即生存分析)很少符合该标准。此外,值得注意的是,Tobit 模型对正态假设比普通线性回归更敏感。

Neither a normally distributed error term nor a linear link would be an adequate choice for modeling time-to-event outcomes in most circumstances. 故障时间的分布在很大程度上倾向于向右倾斜。

对于没有审查的模型,大多数关于失效时间分析的书籍都讨论了参数模型。这些是指数、Gamma 或 Weibull 最大似然程序。对事件时间进行对数转换可以证明线性回归模型的应用是合理的,因此 Tobit 模型可能对带有删失的对数正态数据的参数模型具有一定的适用性。在我看来,事件发生时间数据的对数正态回归模型的基本原理似乎是可疑的:正态分布的数据是随着数百万未测量因素的总和对结果的贡献而出现的。相反,指数模型和 Weibull 模型是已经更详细讨论的概率模型,它们是作为鞅过程微分方程的解而导出的,并通过简单的风险函数进行总结。

Cox 模型不考虑失效时间的分布。它是半参数的,因此适用于一般类别的参数模型,前提是风险是成比例的。Cox 模型使用部分可能性对风险集进行排序:在每个结果中处于疾病风险的人群,并根据任意基线风险函数评估可能性比率。删失后的观察只是从后续分析中删除。大多数人同意它充分利用数据,同时尽可能少地假设底层分布是/不是什么。