模型选择中的悖论(AIC,BIC,解释还是预测?)

机器算法验证 回归 模型选择 aic 比克 悖论
2022-01-27 12:54:05

阅读了 Galit Shmueli 的“解释或预测”(2010 年)和一些关于使用 AIC 和 BIC 进行模型选择的文献后,我对一个明显的矛盾感到困惑。一共有三个场地,

  1. AIC 与基于 BIC 的模型选择(第 300 页结束 - 第 301 页开始):简单地说,AIC 应用于选择用于预测的模型,而 BIC 应用于选择用于解释的模型。另外(不是在上面的论文中),我们知道在某些条件下,BIC 会在候选模型集中选择真正的模型;真正的模型是我们在解释性模型中寻求的(第 293 页结束)。
  2. 简单的算术:对于 8 或更大的样本,AIC 将选择比 BIC更大的,因为 AIC 与 BIC 的复杂性惩罚不同)。ln(n)>2
  3. 真实模型(即具有正确回归器和正确函数形式但估计系数不完美的模型)可能不是预测的最佳模型(第 307 页):缺少预测器的回归模型可能是更好的预测模型——由于缺少预测变量而引入的偏差可能会被由于估计不精确导致的方差减少所抵消。

第 1 点和第 2 点表明,大于真实的模型可能比更简约的模型更适合预测。同时,第 3 点给出了一个相反的例子,一个更简约的模型比一个更大的真实模型更适合预测。我觉得这很令人费解。

问题:

  1. 怎么会出现明显的矛盾点{1。和 2.} 和 3. 解释/解决?
  2. 根据第 3 点,您能否直观地解释为什么 AIC 选择的更大模型实际上比 BIC 选择的更简约的模型更适合预测?

我并不是说 Shmueli (2010) 中存在矛盾,我只是想理解一个明显的悖论。

3个回答

我将尝试解释我所指的一些材料的情况以及我通过与材料作者的个人通信所学到的知识。

http://homepages.cwi.nl/~pdg/presentations/RSShandout.pdf

上面是一个例子,我们试图推断一个 3 次多项式加噪声。如果您查看左下象限,您会发现在 1000 个样本范围内,AIC 在累积基础上优于 BIC。但是,您也可以看到,在多达 100 个样本中,AIC 的瞬时风险比 BIC 更差。这是因为 AIC 对小样本的估计不好(建议的修复方法是 AICc)。0-100 是“解释或预测”论文所展示的区域,而没有明确解释正在发生的事情。此外,即使从图片中不清楚样本数量何时变大(斜率变得几乎相同),BIC 瞬时风险也优于 AIC,因为真实模型在搜索空间中。然而,此时 ML 估计值非常集中在它们的真实值周围,以至于 AIC 的过度拟合变得无关紧要,因为额外的模型参数非常接近 0。所以你可以从右上角的象限中看到,AIC 平均识别~3.2 的多项式次数(在许多模拟运行中,它有时会识别出 3 有时会识别出 4 的次数)。然而,额外的参数是微不足道的,这使得 AIC 成为对抗 BIC 的明智之举。

然而,故事并没有那么简单。在处理 AIC 和 BIC 的论文中存在一些混淆。需要考虑的两种情况:

1)搜索的模型是静态的/固定的,我们增加样本的数量,看看在不同的方法下会发生什么。

a) 真实模型在搜索空间中。我们在上面介绍了这个案例。

b) 真实模型不在搜索空间中,但可以用我们正在使用的函数形式进行近似。在这种情况下,AIC 也更胜一筹。

http://homepages.cwi.nl/~pdg/presentations/RSShandout.pdf (第9页)

c) 真实模型不在搜索空间中,我们甚至没有接近正确的近似值。根据 Grunwald 教授的说法,我们不知道在这种情况下会发生什么。

2)样本数量固定,我们改变要搜索的模型,以了解不同方法下模型难度的影响。

Grunwald 教授提供了以下示例。事实是说一个带有参数的分布,其中 n 是样本大小。并且候选模型 1 是并且候选模型 2 是具有自由参数的分布。BIC 总是选择模型 1,但是模型 2 总是预测得更好,因为 ML 估计值比 0 更接近。正如你所看到的,BIC 没有找到真相,同时也预测得更糟。θ=(logn)/nθ=0θθ

还有非参数情况,但我在这方面没有太多信息。

我个人的看法是,所有信息标准都是近似值,不应期望在所有情况下都能得到正确的结果。我也相信预测最好的模型也是解释最好的模型。这是因为当人们使用术语“模型”时,他们不涉及参数的值,只涉及参数的数量。但是如果你把它看作一个点假设,那么被抗议的额外参数的信息内容几乎为零。这就是为什么我总是选择 AIC 而不是 BIC,如果我只剩下这些选项的话。

不应将它们放在相同的上下文中;第 1 点和第 2 点有不同的上下文。对于 AIC 和 BIC,首先探索哪种参数组合在哪个数字中产生最佳指数(当我使用单词index时,有些作者会癫痫发作在这种情况下。忽略它们,或在字典中查找索引。)在第 2 点中,AIC 是更丰富的模型,其中更丰富意味着选择具有更多参数的模型,只是有时,因为最优 AIC 模型通常是与 BIC 相同数量的参数模型选择。也就是说,如果 AIC 和 BIC 选择具有相同数量参数的模型,则声称 AIC 比 BIC 更适合预测。但是,如果 BIC 在选择的参数模型较少(但不能保证)的情况下达到最大值,则可能会发生相反的情况。Sober (2002) 得出结论,AIC 衡量预测准确性,而 BIC 衡量拟合优度,其中预测准确性可能意味着预测 y 超出 x 的极值范围。在外面的时候,通常,具有弱预测参数的次优 AIC 将比从其所选模型中的更多参数中获得的最优 AIC 指数更好地预测外推值。我顺便指出,AIC 和 ML 并不排除外推误差测试的需要,这是对模型的单独测试。这可以通过从“训练”集中保留极值并计算推断的“训练后”模型与保留数据之间的误差来完成。

现在 BIC 应该是x 的极值范围内y 值的较小误差预测器。拟合优度的提高通常以回归的偏差(用于外推)为代价,其中通过引入该偏差来减少误差。例如,这通常会使斜率变平,以分割平均左侧和右侧f(x)y残差(考虑一侧有更多负残差,另一侧有更多正残差),从而减少总误差。所以在这种情况下,我们要求给定 x 值的最佳 y 值,而对于 AIC,我们更接近地要求 x 和 y 之间的最佳函数关系。它们之间的一个区别是,例如,在其他参数选择相同的情况下,BIC 将在模型和数据之间具有更好的相关系数,并且 AIC 将具有更好的外推误差,即对于给定的外推 x 值的 y 值误差。

第 3 点是在某些条件下的有时陈述

  • 当数据非常嘈杂时(大);σ

  • 当遗漏参数的真实绝对值(在我们的
    示例)较小时;β2

  • 当预测变量高度相关时;

  • 当样本量较小或遗漏变量的范围较小时。

在实践中,方程的正确形式并不意味着与它进行拟合会因为噪声而产生正确的参数值,并且噪声越多越好。与调整后的 R和高共线性发生同样的事情。也就是说,有时当添加一个参数时,调整后的 R会降低,而 R会提高。 2222

我要赶紧指出,这些说法是乐观的。通常,模型是错误的,并且通常更好的模型将强制执行不能与 AIC 或 BIC 一起使用的规范,或者为其应用假定错误的残差结构,并且需要替代措施。在我的工作中,情况总是如此。

几年前,我第一次阅读了 Shmueli 的“解释或预测”(2010 年),这对我来说是最重要的读物之一。经过这样的阅读,几个很大的疑问得到了解决。

在我看来,你注意到的矛盾并不像看起来那么重要。我试着一起回答你的两个问题。

我的主要论点是,您的第 3 点没有出现在第 307 页(这里有详细信息),而是出现在讨论的开头——偏差-方差权衡论点(第 1.5 节;特别是第 293 页的结尾)。您的第 3 点是文章的核心信息(见编辑)

您的第 1 点和第 2 点与模型选择的子参数有关在这个阶段,解释模型和预测模型之间的主要重要实际区别并未出现。预测模型的分析必须涉及样本外的数据,而在解释模型中并非如此。

在预测框架中,首先我们进行模型估计,然后进行模型选择,例如评估模型(超)参数调整;最后,我们对新数据进行了模型评估。

在解释性框架中,模型估计/选择/评估很难区分。在这个框架中,理论上的考虑似乎比 BIC 和 AIC 之间的详细区别更重要。

在 Shmueli (2010) 中,真实模型的概念旨在作为暗示实质性因果意义的理论总结。因果推理是目标。[例如,您可以阅读:“适当的解释模型选择是以受约束的方式进行的……研究人员可能会选择保留一个因果协变量,该变量具有很强的理论依据,即使在统计上不显着。” 第 300 页]

现在,真实模型在因果推理辩论中的作用是我非常感兴趣的,它代表了我在这个网络社区上提出的几个问题的核心。例如,您可以阅读:

计量经济学中的回归和因果关系

经济学中的结构方程和因果模型

因果关系:结构因果模型和 DAG

今天我的猜测是,真实模型的通常概念过于简单,无法进行详尽的因果推理。充其量我们可以将其解释为非常特殊类型的珀尔结构因果模型。

我知道,在某些条件下,BIC 方法允许我们选择真正的模型。然而,这个结果背后的故事听起来我太穷了,无法进行详尽的因果推理。

最后,AIC 和 BIC 之间的区别似乎并不那么重要,最重要的是,它不影响文章的主要观点(你的 3)。

编辑:为了更清楚。这篇文章的主要信息是解释和预测是不同的东西。预测和解释(因果关系)是涉及不同工具的不同目标。在不了解差异的情况下将它们混为一谈是一个大问题。偏差-方差权衡是证明区分预测和解释的必要性的主要理论点。从这个意义上说,您的第 3 点是本文的核心。

EDIT2 在我看来,这里的事实是本文解决的问题过于广泛和复杂。然后,与往常相比,矛盾和/或悖论等概念应该被情境化。对于一些阅读您的问题但没有阅读文章的读者来说,似乎应该完全或至少在大多数情况下拒绝该文章,直到有人没有解决矛盾。我的观点是,事实并非如此。

可以说,作者可以简单地跳过模型选择细节,核心信息可以保持不变,绝对。事实上,文章的核心不是关于实现良好预测(或解释)模型的最佳策略,而是表明预测和解释是不同的目标,意味着不同的方法。从这个意义上说,您的第 1 点和第 2 点是次要的,这一事实解决了矛盾(在上述意义上)。

另一方面,AIC 让我们更喜欢长期而不是短期回归这一事实,这一事实与您在第 3 点所指的论点相矛盾。在这个意义上,悖论和/或矛盾仍然存在。

也许悖论来自于以下事实,即第 3 点背后的论点,偏差-方差权衡,在有限样本数据中是有效的;在小样本中可以是大量的。在无限大样本的情况下,参数的估计误差消失,但可能的偏差项没有,那么真实模型(在经验意义上)在预期预测误差的意义上也是最好的。现在AIC良好的预测特性只能渐进地实现,在小样本中它可以选择参数过多的模型,然后会出现过拟合。在这种情况下,很难准确地说出样本量的重要性。

然而,为了解决小样本的问题,开发了 AIC 的修改版本。见这里:https ://en.wikipedia.org/wiki/Akaike_information_criterion#Modification_for_small_sample_size

我做了一些微积分作为例子,如果这些没有错误:

对于 2 个参数的情况(如 Shmueli 示例中的情况),如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 14 个 obs,AICc 比 BIC 惩罚更多。如果我们有 14 个或更多 obs,BIC 又是更多的惩罚者

对于 5 个参数的情况,如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 19 个 obs,AICc 比 BIC 惩罚更多。如果我们有 19 个或更多的 obs,BIC 又是更多的惩罚者

对于 10 个参数的情况,如果我们的 obs 少于 8 个,AIC 会比 BIC 惩罚更多(如您所说)。如果我们有超过 8 个但少于 28 个 obs,AICc 比 BIC 惩罚更多。如果我们有 28 个或更多的 obs,那么 BIC 又是更多的惩罚者。

最后让我说一下,如果我们仍然非常接近作者的话,我们可以读到她没有明确建议在预测中使用 AIC,在解释中使用 BIC(如您在第 1 点所报告的那样)。她基本上说:在解释模型中,理论考虑是相关的,在预测中没有。这就是这两种选型区别的核心所在。那么 AIC 只是作为“流行指标”呈现出来,它的流行来自于它背后的想法。我们可以阅读:“一个流行的预测指标是样本内的 Akaike 信息标准 (AIC)。Akaike 从预测的角度推导出 AIC,其中模型的目的不是准确推断“真实分布”,而是尽可能准确地预测未来数据”。