究竟什么是“逐步模型选择”?

机器算法验证 多重回归 模型选择 aic 逐步回归
2022-03-23 08:16:03

尽管之前已经讨论了逐步模型选择的优点,但我越来越不清楚究竟什么是“逐步模型选择”或“逐步回归”。我以为我明白了,但不再那么确定了。

我的理解是,这两个术语是同义词(至少在回归上下文中),并且它们指的是在给定数据的“最佳”或“最佳”模型中选择最佳预测变量集。(您可以在此处找到 Wikipedia 页面,并在此处找到另一个可能有用的概述。)

根据之前的几个线程(例如这里:自动模型选择算法),逐步模型选择似乎被认为是一个主要的罪过。然而,它似乎一直在使用,包括那些似乎很受尊敬的统计学家。还是我混淆了术语?

我的主要问题是:

  1. 通过“逐步模型选择”或“逐步回归”,我们的意思是:
    A)进行顺序假设检验,例如似然比检验或查看 p 值?(这里有一个相关的帖子:Why are p-values misleading after perform a stepwise selection?)这是它的意思吗?为什么它不好?
    或者
    B)我们是否也认为基于AIC(或类似信息标准)的选择同样糟糕?Algorithms for automatic model selection的答案来看,这似乎也受到了批评。另一方面,惠廷厄姆等人。(2006 年;PDF1似乎表明基于信息论(IT)方法的变量选择不同于逐步选择(并且似乎是一种有效的方法)......?

    这就是我所有困惑的根源。

    跟进,如果基于 AIC 的选择确实属于“逐步”并且被认为不合适,那么这里有其他问题:

  2. 如果这种方法是错误的,为什么要在教科书、大学课程等中教授?这一切都是错的吗?

  3. 选择哪些变量应保留在模型中的好的替代方法是什么?我遇到了使用交叉验证和训练测试数据集以及 LASSO 的建议。

  4. 我想每个人都会同意,不加选择地将所有可能的变量放入模型中,然后进行逐步选择是有问题的。当然,一些理智的判断应该指导最初的内容。但是,如果我们已经从基于某些(比如生物学)知识的有限数量的可能预测变量开始,并且所有这些预测变量很可能正在解释我们的反应呢?这种模型选择方法是否仍然存在缺陷?我还承认,如果不同模型之间的 AIC 值非常相似(并且在这种情况下可能会应用多模型推理),则选择“最佳”模型可能不合适。但是,使用基于 AIC 的逐步选择的根本问题是否仍然存在问题?

    如果我们要查看哪些变量似乎可以解释响应以及以何种方式解释响应,为什么这种方法是错误的,因为我们知道“所有模型都是错误的,但有些模型是有用的”?

1. Whittingham, MJ, Stephens, PA, Bradbury, RB, & Freckleton, RP (2006)。为什么我们仍然在生态和行为中使用逐步建模?动物生态学杂志,75,第 1182-1189 页。

2个回答

1)您感到困惑的原因是“逐步”一词的使用不一致。有时它意味着非常具体的程序,其中p- 回归系数的值,以普通方式计算,用于确定在模型中添加或删除哪些协变量,此过程重复多次。它可能指(a)此过程的特定变体,其中可以在任何步骤添加或删除变量(我认为这就是 SPSS 所谓的“逐步”),或者它可能指(b)这种变体以及其他变体,例如仅添加变量或仅删除变量。更广泛地说,“逐步”可用于指(c)根据每次添加或删除特征(或特征集)时计算的某个值将特征添加到模型或从模型中删除的任何过程。

这些不同的策略都因各种原因受到批评。我想说大多数批评是关于 (b),批评的关键部分是值在特征选择方面的装备很差(这里的显着性测试实际上是在测试与“我是否应该将这个变量包含在模型?”),大多数严肃的统计学家都建议在任何情况下都反对它。(c) 更具争议性。p

2)因为统计教育真的很糟糕。仅举一个例子:就我自己的教育而言,告诉学生使用贝塞尔校正来获得人口 SD 的无偏估计显然被认为是心理学专业统计学教育的关键部分。贝塞尔校正确实使方差的估计无偏,但很容易证明 SD 的估计仍然有偏。更好的是,贝塞尔的修正可以增加这些估计的 MSE。

3) 变量选择实际上本身就是一个领域。交叉验证和训练-测试分割是评估模型的方法,可能在特征选择之后;他们自己不提供使用哪些功能的建议。套索通常是一个不错的选择。最佳子集也是如此。

4) 在我看来,使用 (b) 仍然没有意义,尤其是当您可以在 (c) 中做其他事情时,比如使用 AIC。我不反对基于 AIC 的逐步选择,但请注意它会对样本敏感(特别是,随着样本任意增长,AIC 就像套索一样,总是选择最复杂的模型),所以不要t 呈现模型选择本身,就好像它是一个可概括的结论。

如果我们想看看哪些变量似乎可以解释响应以及以什么方式

最终,如果您想查看所有变量的影响,则需要包括所有变量,如果您的样本太小,则需要更大的样本。请记住,零假设在现实生活中永远不会成立。不会有一堆与结果相关的变量和一堆与结果无关的其他变量每个变量都将与结果相关联——问题是在何种程度上、在什么方向、与其他变量的相互作用等。

关于逐步与 AIC

逐步是描述构建模型序列的方式以及可能在序列中选择模型的方式的术语。

  • 逐步模型构建中,根据用于定义要添加/删除哪些变量的规则,逐个或分组添加或删除变量。这符合 Kodiologist 的观点 (c)。
  • 逐步模型选择中,比较序列中的相邻模型,当所考虑的模型似乎优于它的两个相邻模型(前一个和后一个)时,将停止。这可以通过查看模型的不同属性来完成,例如它们的 AIC 值、p 值等。

同时,

AIC 是对给定数据集的统计模型的相对质量的度量。维基百科

AIC 可用于从候选池中选择模型。它可以用作逐步选择中的选择标准,但不仅限于此。

因此,逐步AIC是模型选择的两个不同方面,可以一起或单独使用,并且根据这一点和其他考虑因素可能合适也可能不合适。