在生存分析中,我们什么时候应该使用全参数模型而不是半参数模型?

机器算法验证 生存 半参数
2022-03-02 03:12:25

这个问题是另一个问题的对立面在生存分析中,为什么我们使用半参数模型(Cox 比例风险)而不是全参数模型?

事实上,它清楚地展示了 Cox 比例风险回归相对于完全参数回归的优势,而无需假设生存时间的分布。

尽管如此,还是有一些最近的 R 包(SmoothHazard(2017)例如,function shrwith method="Weib")可以轻松拟合完全参数化模型。

我碰巧有机会在一个 50k 的数据集上执行这两项操作,结果非常相似。

完全参数化的生存模型有什么好处?它允许进行哪些额外的分析?

3个回答

这已经被详细研究了很多年,并且有大量的文献。我真的很喜欢样条危险模型。你的问题最简单的答案是这样的:

  • 如果要估计协变量效应,尤其是在没有时间相关协变量的情况下,通常首选 Cox 比例风险模型等半参数模型,因为它们快速、稳健且 Y 变换不变
  • 灵活的参数模型在估计生存曲线等绝对量方面更有效
  • 参数模型提供了一个使预测更容易的公式
  • 如果您可以在存在与时间相关的协变量时对风险函数进行分析集成,则参数模型可以提供更快的预测和更多的直觉
  • 参数模型可以推断(但要小心)以产​​生超出最后一次随访时间的生存估计,并估计预期(平均)生存时间

总之,我想说喜欢参数生存模型的主要原因不是效率,而是易于解释和获得对未来观察的预测。

例如见这篇论文

当您知道风险函数的实际函数形式时,全参数生存模型比 Cox 模型更有效。统计效率就像权力。考虑它的一个好方法是您最终估计对数风险比的置信区间的宽度:紧密的 CI 是有效分析的结果(假设您有一个无偏估计量)。

指数和 Weibull 生存模型确实是“已知”危险函数(分别为常数和线性时间)的流行示例。但是你可以有任何旧的基线风险函数为协变量的任何组合的预期生存率λ(t)θ

S(θ,t)=exp(Λ(t)exp(θX))

其中是累积风险。一个迭代的 EM 型求解器将导致的最大似然估计。Λ(t)θ

一个简洁的事实是,假设风险恒定,Cox 模型与 Weibull 模型与指数全参数生存模型的相对效率为 3:2:1。也就是说,当数据实际上是指数时,在 Cox 模型下需要 9 倍的观察次数才能产生效果估计的置信区间,与指数生存模型的预期半宽相等。当你知道它时,你必须使用你所知道的,但永远不要错误地假设。θ

我花了很多时间处理间隔审查的一般情况,即,当事件时间可能准确知道时,右或左审查或只知道一个间隔。例如,假设一个零件在再次检查并失败。那么我们所知道的是它在间隔内失败了。T1T2(T1,T2]

在区间删失情况下,虽然我们可以使用 bootstrap + 渐近正态性来推断回归系数,但基线生存曲线本身并非如此。因此,如果想要推断实际生存时间而不仅仅是风险比,则需要使用全参数模型。因此,半参数模型通常更多地用于检查模型拟合,而不是用于完全推断生存时间。

当然,右删失数据并非如此。我猜想对于完全参数模型来说,生存估计的置信区间会更紧一些,尽管我没有对此进行测试。事实上,有关更多信息,请参阅@AdamO 的回答。

另外一点,AFT 模型没有参数模型(在类似于 Kaplan-Meier 基线分布的意义上),即使对于右删失或未删失数据也是如此。或者更具体地说,模型很难优化。这样做的原因是,您可以将 AFT 模型视为重新调整时间,与重新调整生存概率的比例风险或赔率模型相比。问题在于,在半参数模型中,唯一的事件或审查时间影响可能性的方式是相对排名。事件时间的足够小的移动根本不会改变排名(假设数据中没有平局),这意味着没有平局的导数都为零。当有联系时,衍生品是无限的!不是一个非常有趣的优化问题。鉴于 AFT 模型对缺失协变量更具弹性且更具可解释性,即使没有半参数模型,使用 AFT 也是一个强有力的论据。

偏爱参数模型而不是半参数模型的另一个原因是它们更容易泛化。例如,如果要执行贝叶斯分析,使用参数模型会容易得多。或者,如果要建立治愈率模型,这对于半参数模型是不可识别的,但对于参数模型是可识别的。