据我了解,基于 p 值的变量选择(至少在回归上下文中)存在很大缺陷。似乎基于 AIC(或类似)的变量选择也被一些人认为是有缺陷的,出于类似的原因,尽管这似乎有点不清楚(例如,请参阅我的问题和有关此主题的一些链接:什么是“逐步模型选择”?)。
但是假设您确实采用这两种方法之一来选择模型中的最佳预测变量集。
Burnham 和 Anderson 2002(模型选择和多模型推理:一种实用的信息论方法,第 83 页)指出,不应将基于 AIC 的变量选择与基于假设检验的变量选择混为一谈:“零假设检验和信息论方法应该不能一起使用;它们是非常不同的分析范式。”
另一方面,Zuur 等人。2009(Mixed Effects Models With Extensions in Ecology with R, page 541)似乎提倡使用AIC 先找到最优模型,然后使用假设检验进行“微调”:“缺点是 AIC 可以保守,并且一旦 AIC 选择了最佳模型,您可能需要应用一些微调(使用方法一中的假设检验采购)。”
您可以看到这如何让两本书的读者对遵循哪种方法感到困惑。
1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是“过时”,但在撰写本文时被认为是合适的?还是从一开始就完全错误?
2) 是否存在适合这种方法的情况?例如,我来自生物学背景,我经常试图确定哪些变量(如果有的话)似乎会影响或驱动我的反应。我经常有许多候选解释变量,我试图找出哪些是“重要的”(相对而言)。此外,请注意,候选预测变量的集合已经减少到那些被认为具有某种生物学相关性的变量,但这可能仍包括 5-20 个候选预测变量。