尽管之前已经讨论了逐步模型选择的优点,但我越来越不清楚究竟什么是“逐步模型选择”或“逐步回归”。我以为我明白了,但不再那么确定了。
我的理解是,这两个术语是同义词(至少在回归上下文中),并且它们指的是在给定数据的“最佳”或“最佳”模型中选择最佳预测变量集。(您可以在此处找到 Wikipedia 页面,并在此处找到另一个可能有用的概述。)
根据之前的几个线程(例如这里:自动模型选择算法),逐步模型选择似乎被认为是一个主要的罪过。然而,它似乎一直在使用,包括那些似乎很受尊敬的统计学家。还是我混淆了术语?
我的主要问题是:
通过“逐步模型选择”或“逐步回归”,我们的意思是:
A)进行顺序假设检验,例如似然比检验或查看 p 值?(这里有一个相关的帖子:Why are p-values misleading after perform a stepwise selection?)这是它的意思吗?为什么它不好?
或者
B)我们是否也认为基于AIC(或类似信息标准)的选择同样糟糕?从Algorithms for automatic model selection的答案来看,这似乎也受到了批评。另一方面,惠廷厄姆等人。(2006 年;PDF)1似乎表明基于信息论(IT)方法的变量选择不同于逐步选择(并且似乎是一种有效的方法)......?这就是我所有困惑的根源。
跟进,如果基于 AIC 的选择确实属于“逐步”并且被认为不合适,那么这里有其他问题:
如果这种方法是错误的,为什么要在教科书、大学课程等中教授?这一切都是错的吗?
选择哪些变量应保留在模型中的好的替代方法是什么?我遇到了使用交叉验证和训练测试数据集以及 LASSO 的建议。
我想每个人都会同意,不加选择地将所有可能的变量放入模型中,然后进行逐步选择是有问题的。当然,一些理智的判断应该指导最初的内容。但是,如果我们已经从基于某些(比如生物学)知识的有限数量的可能预测变量开始,并且所有这些预测变量很可能正在解释我们的反应呢?这种模型选择方法是否仍然存在缺陷?我还承认,如果不同模型之间的 AIC 值非常相似(并且在这种情况下可能会应用多模型推理),则选择“最佳”模型可能不合适。但是,使用基于 AIC 的逐步选择的根本问题是否仍然存在问题?
如果我们要查看哪些变量似乎可以解释响应以及以何种方式解释响应,为什么这种方法是错误的,因为我们知道“所有模型都是错误的,但有些模型是有用的”?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB, & Freckleton, RP (2006)。为什么我们仍然在生态和行为中使用逐步建模?动物生态学杂志,75,第 1182-1189 页。