如何解释和比较 Cox 回归中的模型?

机器算法验证 生存 cox模型 似然比 模型比较 可能性
2022-04-01 17:12:21

我试图解释 Cox 回归的结果;我正在攻读医学博士学位。我喜欢统计数据,但我认为我的问题仍然很基本,而且我在以前的帖子中没有找到答案。

我必须比较不同的模型(每个模型只有几个预测变量;预测变量不同,但有时相同的预测变量出现在不同的模型中;比如,A+B、A+C、A+D、B+C)趋向相同事件发生时间变量。

如何选择“最佳”模型?我正在研究基本的统计原理,但我仍然不知道我是否必须看

  • 哪个模型的对数似然度最高;
  • 哪个模型的似然比检验(LR chi2)的p值最好;
  • 哪个模型具有显着的协变量 HR 系数(β)的所有 p 值;
  • 或以上任意组合(例如,仅考虑所有协变量的 LR 和 beta 系数均显着的模型,并在其中选择对数似然最高的模型)。

还是有另一种统计技术可以做到这一点?我正在使用 Stata 11.0。

我知道 LR 的重要性和 beta 系数的重要性测试不同的东西,但我仍然需要选择具有“最佳预测能力”或“最强关联”的模型。

预先感谢您的帮助!卢卡

1个回答

免责声明:正如评论中的那样,这些不是确保最佳预测的方法,而是流行病学家对生存模型模型构建的思考,试图阐明结果 O 和具有多个协变量的暴露 E 之间的关系:

这些的目标实际上并不是建立最好的预测模型或最强的关联,而是提出一个模型,其中包含对 E 对 O 的影响进行无偏估计所需的所有变量(假设没有残余混杂- 即我们没有忘记/忽略/不知道某件事很重要),不包括其他任何内容。

因为您的模型不是“嵌套”的,即您没有比较“A、B 和 C”与“A 和 B”与“仅 A”,所以您真的不能使用对数似然的直接比较,包括似然比检验。

根据 p 值做出建模决策也是相当危险的 - 可以对此进行大量讨论,但我建议在开始阅读现代流行病学第 3 版的副本或浏览一些作品时桑德格陵兰,或者查尔斯普尔。这应该会让你很快退出 p 值模型选择:)

如果您只是在寻找非嵌套 Cox 模型的“最佳拟合”版本,则可以使用 Stata 应报告的 Akaike 信息标准 (AIC) 或贝叶斯信息标准 (BIC)。这些为您提供了每个模型拟合的相对强度的良好图片 - 您正在寻找具有最低 AIC 或 BIC 的模型。这些为您提供了与模型中变量数量相比模型的预测能力的图片,试图在模型简约性和拟合之间取得平衡。如果我要决定要包含的变量的形式(即我应该使用 A,还是还包含 A^2 的术语?),我倾向于使用它。但在“我包括哪些变量”阶段并没有那么多。

我决定变量的方式是混合使用:

  • 我使用有向无环图 (DAG) 构建了我认为是关系的工作因果模型,以显示 E、O 和我感兴趣的变量之间的所有关系。有很多关于如何做到这一点的介绍,有些人会争辩说,一旦你完成了一个 DAG 并找到了你需要控制的变量(参见上述在线教程),你就完成了。我对此的信心取决于我是在一个已知的、经过充分研究的领域工作,还是在开拓新领域。
  • 如果我不想在那里完成,或者我不确定我的某些选择,我可能会使用改变估计的方法,包括改变我对 E 和 O 之间关联的估计的变量超过10% 或类似的东西。这使您可以保留对您的估计有影响的变量,但摆脱那些没有影响的变量,即使它们在理论上可能因为您的 DAG 而很重要。
  • 最后,有时我确实只使用 p 值截止值,但我倾向于让它非常慷慨——我不希望只包括 p 值小的变量,而是任何甚至隐约表明它可能具有重要性的变量,所以我的截止值是 p < 0.25。

我再次推荐一本现代流行病学第三版,他们对模型选择有很好的处理。