变量选择的冲突方法:AIC、p 值或两者兼而有之?

机器算法验证 假设检验 多重回归 特征选择 模型选择 aic
2022-01-21 05:36:28

据我了解,基于 p 值的变量选择(至少在回归上下文中)存在很大缺陷。似乎基于 AIC(或类似)的变量选择也被一些人认为是有缺陷的,出于类似的原因,尽管这似乎有点不清楚(例如,请参阅我的问题和有关此主题的一些链接:什么是“逐步模型选择”?)。

但是假设您确实采用这两种方法之一来选择模型中的最佳预测变量集。

Burnham 和 Anderson 2002(模型选择和多模型推理:一种实用的信息论方法,第 83 页)指出,不应将基于 AIC 的变量选择与基于假设检验的变量选择混为一谈:“零假设检验和信息论方法应该不能一起使用;它们是非常不同的分析范式。”

另一方面,Zuur 等人。2009(Mixed Effects Models With Extensions in Ecology with R, page 541)似乎提倡使用AIC 先找到最优模型,然后使用假设检验进行“微调”:“缺点是 AIC 可以保守,并且一旦 AIC 选择了最佳模型,您可能需要应用一些微调(使用方法一中的假设检验采购)。”

您可以看到这如何让两本书的读者对遵循哪种方法感到困惑。

1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是“过时”,但在撰写本文时被认为是合适的?还是从一开始就完全错误?

2) 是否存在适合这种方法的情况?例如,我来自生物学背景,我经常试图确定哪些变量(如果有的话)似乎会影响或驱动我的反应。我经常有许多候选解释变量,我试图找出哪些是“重要的”(相对而言)。此外,请注意,候选预测变量的集合已经减少到那些被认为具有某种生物学相关性的变量,但这可能仍包括 5-20 个候选预测变量。

2个回答

一个简短的回答。

进行数据驱动模型选择或调整的方法,然后在选择/调整的模型上使用标准推理方法(à la Zuur等人,以及许多其他受人尊敬的生态学家,如 Crawley),总是会给出过于乐观的结果:过于狭窄的信心间隔(覆盖率差),p 值过小(I 型错误高)。这是因为标准推理方法假定模型是先验指定的他们没有考虑模型调整过程。

这就是为什么像 Frank Harrell ( Regression Modeling Strategies ) 这样的研究人员强烈反对逐步回归等数据驱动的选择技术,并警告必须降低模型复杂性(“降维”,例如计算预测变量的 PCA并通过查看预测变量来选择前几个 PCA 轴作为预测变量。

如果您对寻找最佳预测模型感兴趣(并且对预测不确定性的任何可靠估计不感兴趣,这属于推理领域!),那么数据驱动的模型调整就可以了(尽管逐步选择很少是最好的选择);机器学习/统计学习算法会进行大量调整以尝试获得最佳预测模型。“测试”或“样本外”错误必须在单独的、保留的样本上进行评估,或者任何调整方法都需要构建到交叉验证程序中。

关于这个话题的观点似乎确实有历史演变。许多经典的统计教科书,尤其是那些专注于回归的教科书,提出了逐步方法,然后是标准推理程序,而没有考虑模型选择的影响[需要引用...]

量化变量重要性的方法有很多,但并非都落入后变量选择陷阱。

  • Burnham 和 Anderson 建议对 AIC 权重求和;对于这种方法存在相当多的分歧。
  • 您可以拟合完整模型(使用适当缩放/无单位的预测变量)并按估计的幅度 [生物效应大小]Z 分数 [“清晰度”/统计效应大小] 对预测变量进行排名。

我来自生物学背景,是一名生物统计学家,在大学医院工作。我读了很多这方面的书,尤其是最近,尤其是 Harrell 对 www 的看法,以及他的书 Regression Modeling Strategies。不再引用他,而是从经验中说:

主要是基于当前的问题,甚至可以使用哪些方法。通常数据是高度相关的,因此无法找到合理或可重复的“预测”模型。

其次是获得一种良好的理性方法,以便通过科学经验,您的协变量/混杂因素应该是可解释的,对于表达您的预测变量是有意义的。

第三是考虑相互作用(以非线性为代表),这可能是至关重要的,并且通常会使任何现代变量选择方法无效

只有第 4 种是实际选择的方法,就我的医院数据而言,在二项式逻辑或半参数 cox 回归中通常有大约 x 10 ^ 3 个患者和 x 10 ^ 1 个结果(例如死亡),我使用了向后逐步 AIC, Lasso、Ridge(没有真正的变量选择)和 Elastic Net 通过 AUC 相互回归并承认:方法因请求的主题而异,但逐步 AIC 以及 Lasso 和 Elastic Net 正在处理该问题。通常医生会报告 AIC 模型更合理。

(对不起,我的第一个答案很快输入)

对于编辑:我还尝试了 PCA 的特征值排名,它为一般问题提供了最有希望和最可靠的结果,但仍然是非常初始(和“合理”)的猜测。