AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC --- 我可以互换使用它们吗?

机器算法验证 预测 模型选择 aic 比克
2022-02-08 10:10:04

在页。他的PRNN的 34篇 Brian Ripley 评论说:“AIC 被 Akaike (1974) 命名为‘信息标准’,尽管似乎普遍认为 A 代表 Akaike”。事实上,在介绍 AIC 统计量时,Akaike (1974, p.719) 解释说

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

将此引用视为 1974 年的预测,有趣的是,在短短四年内,Akaike (1977, 1978) 和 Schwarz (1978) 提出了两种类型的 BIC 统计量(贝叶斯 IC)。Spiegelhalter et al. (2002)更长的时间来提出DIC(Deviance IC)。虽然 Akaike (1974) 没有预测到 CIC 标准的出现,但如果认为它从未被考虑过,那就太天真了。它由 Carlos C. Rodriguez 在 2005 年提出。(请注意,R. Tibshirani 和 K. Knight 的 CIC(协方差通货膨胀标准)是另一回事。)

我知道EIC(Empirical IC)是蒙纳士大学的人在2003年左右提出的。我刚刚发现了Focused Information Criterion(FIC)。一些书籍将 Hannan 和 Quinn IC 称为 HIC,参见例如这个)。我知道应该有 GIC(广义 IC),我刚刚发现了信息投资标准(IIC)。有 NIC、TIC 等等。

我想我可能会涵盖字母表的其余部分,所以我不是在问序列 AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC,... 在哪里停止,或者字母表中有哪些字母未使用过或至少使用过两次(例如 EIC 中的 E 可以代表 Extended 或 Empirical)。我的问题更简单,我希望更实用。我是否可以互换使用这些统计数据,而忽略它们所依据的特定假设、它们适用的特定情况等等?

这个问题的部分原因是 Burnham & Anderson (2001) 写道:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Hyndman 等人关于指数平滑的专着的第 7 章在研究五种替代 IC(AIC、BIC、AICc、HQIC、LEIC)在选择预测最佳模型(如实测通过新提出的称为 MASE 的误差度量)得出结论,AIC 通常是更好的选择。(HQIC 曾被报道为最佳模型选择器。)

我不确定研究练习的有用目的是什么,这些练习隐含地对待所有 Ic,就好像它们是在等效的假设集下回答一个相同的问题一样。特别是,我不确定通过在非平稳指数的上下文中使用一致标准来确定自回归(Hannan 和 Quinn 为遍历平稳序列得出的)阶数的预测性能有何用处Hyndman 等人在专着中描述和分析的平滑模型。我在这里错过了什么吗?

参考:

Akaike, H. (1974),统计模型识别的新视角,IEEE Transactions on Automatic Control 19(6), 716-723。

Akaike, H. (1977),关于熵最大化原则,在 PR Krishnaiah 编辑,统计应用,卷。27,阿姆斯特丹:北荷兰,第 27-41 页。

Akaike, H. (1978),最小 AIC 程序的贝叶斯分析,统计数学研究所年鉴30(1),9-14。

Burnham, KP & Anderson, DR (2001) Kullback–Leibler 信息作为生态研究强推论的基础,野生动物研究28, 111-119

Hyndman, RJ, Koehler, AB, Ord, JK & Snyder, RD指数平滑预测:状态空间方法。纽约:斯普林格,2008

Ripley,BD模式识别和神经网络剑桥:剑桥大学出版社,1996

Schwarz, G. (1978),估计模型的维度,统计年鉴6(2),461-464。

Spiegelhalter, DJ, Best, NG, Carlin, BP 和 van der Linde, A. (2002),模型复杂性和 t 的贝叶斯度量(带讨论),皇家统计学会杂志。B 系列(统计方法) 64(4),583-639。

3个回答

我的理解是 AIC、DIC 和 WAIC 都在估计同一件事:与模型相关的预期样本外偏差。这也与交叉验证估计相同。在格尔曼等人。(2013),他们明确地说:

估计样本外预测误差的一种自然方法是交叉验证(参见 Vehtari 和 Lampinen,2002 年的贝叶斯观点),但研究人员一直在寻找替代方法,因为交叉验证需要重复的模型拟合并且可以遇到稀疏数据的麻烦。仅出于实际原因,仍然存在简单的偏差校正,例如 AIC (Akaike, 1973)、DIC (Spiegelhalter, Best, Carlin, and van der Linde, 2002, van der Linde, 2005),以及最近的 WAIC (Watanabe,2010),所有这些都可以看作是对不同版本的交叉验证(Stone,1977)的近似。

BIC 估计一些不同的东西,这与最小描述长度有关。格尔曼等人。说:

BIC 及其变体与此处考虑的其他信息标准不同,其动机不是预测拟合的估计,而是模型下近似数据的边际概率密度 p(y) 的目标,可用于在离散模型比较的设置中估计相对后验概率。

不幸的是,我对您列出的其他信息标准一无所知。

您可以互换使用类似 AIC 的信息标准吗?意见可能不同,但鉴于 AIC、DIC、WAIC 和交叉验证都估计相同的东西,那么是的,它们或多或少是可以互换的。如上所述,BIC 是不同的。我不知道其他人。

为什么有不止一个?

  • 当您有最大似然估计和平坦先验时, AIC效果很好,但对于其他场景并没有什么可说的。当参数的数量接近数据点的数量时,惩罚也太小了。 AICc对此进行了过度校正,这取决于您的观点,这可能是好是坏。

  • 如果模型的某些部分受到先验的严重限制(例如在一些估计方差分量的多级模型中),DIC使用较小的惩罚。这很好,因为受严格约束的参数并不真正构成完全的自由度。不幸的是,通常用于 DIC 的公式假设后验本质上是高斯的(即它可以通过其均值很好地描述),因此在某些情况下可能会得到奇怪的结果(例如负惩罚)。

  • WAIC比 DIC 更有效地使用整个后验密度,所以 Gelman 等人。更喜欢它,尽管在某些情况下计算可能会很痛苦。

  • 交叉验证不依赖于任何特定的公式,但对于许多模型来说,它在计算上可能会令人望而却步。

在我看来,决定使用哪一个类似 AIC 的标准完全取决于这些实际问题,而不是一个数学证明,一个会比另一个做得更好。

参考资料

格尔曼等人。了解贝叶斯模型的预测信息标准。可从http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf 获得

“可互换”这个词太强了。所有这些都是寻求比较模型并找到“最佳”模型的标准,但每个标准对“最佳”的定义不同,并且可能将不同的模型识别为“最佳”。

“提议公投”。只为投票!;-) 我喜欢 CAIC (Bozdogan, 1987) 和 BIC 纯粹来自我的个人实践,因为这些标准对复杂性造成了严重的惩罚,我们得到了更多的简约,但我总是显示好的模型列表 - delta 4-6 -8(而不是 2)。在研究参数的步骤中(因为我们有“候选模型的良好拉伸”),MM 平均(B&A)通常几乎没有任何变化。我对经典的 AIC 和 AICc(H&T,由 B&A 推广)都持怀疑态度,因为它们通常会提供非常“厚厚的一层奶油”。;-)