免责声明:正如评论中的那样,这些不是确保最佳预测的方法,而是流行病学家对生存模型模型构建的思考,试图阐明结果 O 和具有多个协变量的暴露 E 之间的关系:
这些的目标实际上并不是建立最好的预测模型或最强的关联,而是提出一个模型,其中包含对 E 对 O 的影响进行无偏估计所需的所有变量(假设没有残余混杂- 即我们没有忘记/忽略/不知道某件事很重要),不包括其他任何内容。
因为您的模型不是“嵌套”的,即您没有比较“A、B 和 C”与“A 和 B”与“仅 A”,所以您真的不能使用对数似然的直接比较,包括似然比检验。
根据 p 值做出建模决策也是相当危险的 - 可以对此进行大量讨论,但我建议在开始阅读现代流行病学第 3 版的副本或浏览一些作品时桑德格陵兰,或者查尔斯普尔。这应该会让你很快退出 p 值模型选择:)
如果您只是在寻找非嵌套 Cox 模型的“最佳拟合”版本,则可以使用 Stata 应报告的 Akaike 信息标准 (AIC) 或贝叶斯信息标准 (BIC)。这些为您提供了每个模型拟合的相对强度的良好图片 - 您正在寻找具有最低 AIC 或 BIC 的模型。这些为您提供了与模型中变量数量相比模型的预测能力的图片,试图在模型简约性和拟合之间取得平衡。如果我要决定要包含的变量的形式(即我应该使用 A,还是还包含 A^2 的术语?),我倾向于使用它。但在“我包括哪些变量”阶段并没有那么多。
我决定变量的方式是混合使用:
- 我使用有向无环图 (DAG) 构建了我认为是关系的工作因果模型,以显示 E、O 和我感兴趣的变量之间的所有关系。有很多关于如何做到这一点的介绍,有些人会争辩说,一旦你完成了一个 DAG 并找到了你需要控制的变量(参见上述在线教程),你就完成了。我对此的信心取决于我是在一个已知的、经过充分研究的领域工作,还是在开拓新领域。
- 如果我不想在那里完成,或者我不确定我的某些选择,我可能会使用改变估计的方法,包括改变我对 E 和 O 之间关联的估计的变量超过10% 或类似的东西。这使您可以保留对您的估计有影响的变量,但摆脱那些没有影响的变量,即使它们在理论上可能因为您的 DAG 而很重要。
- 最后,有时我确实只使用 p 值截止值,但我倾向于让它非常慷慨——我不希望只包括 p 值小的变量,而是任何甚至隐约表明它可能具有重要性的变量,所以我的截止值是 p < 0.25。
我再次推荐一本现代流行病学第三版,他们对模型选择有很好的处理。