如何在回归模型中选择变量?

机器算法验证 回归 特征选择
2022-03-01 10:52:27

变量选择的传统方法是找到对预测新响应贡献最大的变量。最近我知道了一个替代方案。在确定治疗效果的变量建模中——例如在药物的临床试验中——变量被认为是定性相互作用的如果在保持其他因素不变的情况下进行治疗,则该变量的变化可以产生最有效的治疗变化。这些变量并不总是效果的强预测因子,但在决定对个体患者的治疗时对医生来说可能很重要。在她的博士论文中,Lacey Gunter 开发了一种方法来选择这些定性相互作用的变量,这些变量可能会被基于预测的选择算法所遗漏。最近,我与她合作将这些方法扩展到其他模型,包括逻辑回归和 Cox 比例风险回归模型。

我有两个问题:

  1. 您如何看待这些新方法的价值?
  2. 在传统方法的情况下,您更喜欢哪种方法?AIC、BIC、Mallows Cp、F 测试等标准,用于逐步、向前和向后输入或删除变量……

关于这方面的第一篇论文发表于 Gunter, L.、Zhu, J 和 Murphy, SA (2009)。定性交互的变量选择统计方法 doi:10, 1016/j.stamet.2009.05.003。

下一篇论文发表在 Gunter, L.、Zhu, J. 和 Murphy, SA (2011) 上。 个性化医疗中定性相互作用的变量选择,同时控制家庭错误率生物制药统计杂志21, 1063-1078。

下一篇出现在关于变量选择的特刊 Gunter, L.、Chernick, MR 和 Sun, J. (2011)。关于治疗选择的回归中变量选择的简单方法巴基斯坦统计与运筹学杂志7:363-380。

您可以在期刊网站上找到这些论文。您可能需要购买该文章。我可能有这些文章的 pdf 文件。莱西和我刚刚完成了一本关于这个主题的专着,将于今年晚些时候作为 SpringerBrief 出版。

1个回答
  1. 请参阅 Gelman 和 Hill,使用回归和多级/分层模型进行数据分析,第 69 页,他们有一个关于模型选择的部分。她正在使用基于问题的方法,这完全没问题,但在她的论文中,她需要证明她为什么将她所做的事情包含在模型中。就像你说的“这些变量并不总是效果的强预测因子,但在决定对个别患者的治疗时对医生来说可能很重要。” 所以只要她证明为什么应该包括这些预测因子就可以了。就我个人而言,我更喜欢这些方法。所以这是我对2的回答。
  2. 逐步,向前和向后我认为是黑匣子。当您通过所有三个运行模型时,您将不会得到相同的预测变量。因此,关于使用哪个,我没有明确的答案。AIC 或 BIC 可用于比较模型。