是否存在 BIC 有用而 AIC 无用的情况?

机器算法验证 模型选择 aic 事先的 信息论 比克
2022-03-25 08:18:45

Akaike 信息标准的 Wikipedia 条目中,我们在与 BIC(贝叶斯信息标准)的比较下读到

...AIC/AICc 相对于 BIC 具有理论优势...AIC/AICc 源于信息原理;BIC 不是...BIC 具有 1/R 的先验(其中 R 是候选模型的数量),这是“不明智的”...AICc 往往比 BIC 具有实用/性能优势...AIC 是渐近的最优...BIC 不是渐近最优的...AIC 收敛到最优的速率是...最好的。

在 AIC谈话部分,有很多关于与 BIC 部分比较的偏见呈现的评论。一位沮丧的投稿人抗议说整篇文章“读起来就像是香烟广告”。

在其他来源中,例如在本论文附录中,AIC 索赔的主旨似乎更现实。因此,作为对社区的服务,我们要求:

Q:是否存在BIC有用而AIC无用的情况?

3个回答

根据 Wikipedia,AIC 可以写成如下: 由于 BIC 允许对复杂模型进行大量惩罚,因此 AIC 会提示您应该选择一个过于复杂的模型。复杂,而 BIC 仍然有用。BIC 可以写成如下: 所以区别在于 BIC 对样本的大小进行惩罚。如果您不想对那里的样本进行处罚

2k2ln(L)
2ln(L)+kln(n)

可以在这里找到 Rob Hyndman 的快速解释:是否有任何理由更喜欢 AIC 或 BIC? 他写:

  • AIC 最适合预测,因为它渐近等效于交叉验证。
  • BIC 最适合解释,因为它允许对基础数据生成过程进行一致的估计。**

编辑:一个例子可以在时间序列分析中找到。在 VAR 模型中,AIC(及其修正版 AICc)通常会出现许多滞后。因此,在选择 VAR Modell 的滞后数时,应主要查看 BIC。如需更多信息,您可以阅读Rob J. Hyndman 和 George Athanasopoulos的Forecasting-Principles and Practice第 9.2 章。

问 AIC 是否优于 BIC 的问题没有意义。尽管这两种不同的模型选择标准看起来很相似,但它们都旨在解决根本不同的问题。因此,您应该选择适合您遇到的问题的模型选择标准。

AIC 是一个公式,使用正确指定的概率模型估计测试数据的负对数似然的两倍的期望值,该模型的参数是通过将模型拟合到训练数据而获得的。也就是说,AIC 使用负对数似然误差来估计预期的交叉验证误差。 其中是测试数据,是使用训练数据估计的,表示对于生成训练和测试数据的 iid 数据生成过程的期望算子。AICE{2logi=1np(xi|θ^n)}x1,,xnθ^nE{}

另一方面,BIC 并非旨在估计交叉验证误差。BIC 估计给定模型的观测数据可能性的负对数的两倍。这种似然度也称为边际似然度,它是通过在参数空间上积分由参数先验也就是说, p(θ)BIC2log[i=1np(xi|θ)]p(θ)dθ

Q:是否存在BIC有用而AIC无用的情况?

答:是的。BIC 和 AIC 有着根本不同的目标。BIC 估计模型最小化损失函数的概率(特别是 Kullback-Leibler 散度);A 和 B 之间的 BIC 差异为 0.1 意味着模型 A 成为最佳模型的可能性大约高出 10%——假设您从几乎没有信息开始并且样本量很大。相比之下,AIC 衡量模型在做出预测方面的能力——0.1 的差异(非常粗略地)意味着模型 A 在做出新预测方面将比模型 B 好 10% 左右。

这意味着如果您想知道模型为真的概率,BIC 会更好。AIC 不能给你。如果您尝试以这种方式使用 AIC,您会得到不一致的估计(即 AIC 不会总是选择真正的模型)。

另一方面,AIC 将更擅长最小化预期损失。

AIC 和 BIC 有两个根本不同的目标(BIC 试图最大化选择最佳模型的机会,而 AIC 试图最大化您选择的模型的预期质量)。