机器算法验证 - 如何解释和比较 Cox 回归中的模型？ - 吾爱随笔录

如何解释和比较 Cox 回归中的模型？

机器算法验证生存 cox模型似然比模型比较可能性

2022-04-01 17:12:21

我试图解释 Cox 回归的结果；我正在攻读医学博士学位。我喜欢统计数据，但我认为我的问题仍然很基本，而且我在以前的帖子中没有找到答案。

我必须比较不同的模型（每个模型只有几个预测变量；预测变量不同，但有时相同的预测变量出现在不同的模型中；比如，A+B、A+C、A+D、B+C）趋向相同事件发生时间变量。

如何选择“最佳”模型？我正在研究基本的统计原理，但我仍然不知道我是否必须看

哪个模型的对数似然度最高；
哪个模型的似然比检验（LR chi2）的p值最好；
哪个模型具有显着的协变量 HR 系数（β）的所有 p 值；
或以上任意组合（例如，仅考虑所有协变量的 LR 和 beta 系数均显着的模型，并在其中选择对数似然最高的模型）。

还是有另一种统计技术可以做到这一点？我正在使用 Stata 11.0。

我知道 LR 的重要性和 beta 系数的重要性测试不同的东西，但我仍然需要选择具有“最佳预测能力”或“最强关联”的模型。

预先感谢您的帮助！卢卡

1个回答

免责声明：正如评论中的那样，这些不是确保最佳预测的方法，而是流行病学家对生存模型模型构建的思考，试图阐明结果 O 和具有多个协变量的暴露 E 之间的关系：

这些的目标实际上并不是建立最好的预测模型或最强的关联，而是提出一个模型，其中包含对 E 对 O 的影响进行无偏估计所需的所有变量（假设没有残余混杂- 即我们没有忘记/忽略/不知道某件事很重要），不包括其他任何内容。

因为您的模型不是“嵌套”的，即您没有比较“A、B 和 C”与“A 和 B”与“仅 A”，所以您真的不能使用对数似然的直接比较，包括似然比检验。

根据 p 值做出建模决策也是相当危险的 - 可以对此进行大量讨论，但我建议在开始阅读现代流行病学第 3 版的副本或浏览一些作品时桑德格陵兰，或者查尔斯普尔。这应该会让你很快退出 p 值模型选择:)

如果您只是在寻找非嵌套 Cox 模型的“最佳拟合”版本，则可以使用 Stata 应报告的 Akaike 信息标准 (AIC) 或贝叶斯信息标准 (BIC)。这些为您提供了每个模型拟合的相对强度的良好图片 - 您正在寻找具有最低 AIC 或 BIC 的模型。这些为您提供了与模型中变量数量相比模型的预测能力的图片，试图在模型简约性和拟合之间取得平衡。如果我要决定要包含的变量的形式（即我应该使用 A，还是还包含 A^2 的术语？），我倾向于使用它。但在“我包括哪些变量”阶段并没有那么多。

我决定变量的方式是混合使用：

我使用有向无环图 (DAG) 构建了我认为是关系的工作因果模型，以显示 E、O 和我感兴趣的变量之间的所有关系。有很多关于如何做到这一点的介绍，有些人会争辩说，一旦你完成了一个 DAG 并找到了你需要控制的变量（参见上述在线教程），你就完成了。我对此的信心取决于我是在一个已知的、经过充分研究的领域工作，还是在开拓新领域。
如果我不想在那里完成，或者我不确定我的某些选择，我可能会使用改变估计的方法，包括改变我对 E 和 O 之间关联的估计的变量超过10% 或类似的东西。这使您可以保留对您的估计有影响的变量，但摆脱那些没有影响的变量，即使它们在理论上可能因为您的 DAG 而很重要。
最后，有时我确实只使用 p 值截止值，但我倾向于让它非常慷慨——我不希望只包括 p 值小的变量，而是任何甚至隐约表明它可能具有重要性的变量，所以我的截止值是 p < 0.25。

我再次推荐一本现代流行病学第三版，他们对模型选择有很好的处理。

其它你可能感兴趣的问题

上一篇分类变量水平的 p 值在泊松回归中代表什么？下一篇这个 QQ 图使用什么分布？