AIC 选型指南

机器算法验证 r 模型选择 参考 aic 比克
2022-02-14 12:21:42

我通常使用 BIC,因为我的理解是它比 AIC 更重视简约。但是,我现在决定使用更全面的方法,并且也想使用 AIC。我知道 Raftery (1995) 为 BIC 差异提出了很好的指导方针:0-2 是弱的,2-4 是一个模型更好的积极证据,等等。

我查看了教科书,它们在 AIC 上似乎很奇怪(看起来较大的差异是弱的,而 AIC 的较小差异意味着一个模型更好)。这与我所知道的我所学的背道而驰。我的理解是你想要更低的AIC。

有谁知道 Raftery 的指南是否也适用于 AIC,或者我可能会在哪里引用一些关于一个模型与另一个模型的“证据强度”指南?

是的,临界值不是很好(我觉得它们很烦人),但在比较不同类型的证据时它们很有帮助。

4个回答

您在谈论两种不同的事物,并且将它们混合在一起。在第一种情况下,您有两个模型(1 和 2),并且您获得了它们的 AIC,例如AIC1AIC2. 如果您想根据 AIC 比较这两个模型,那么具有较低 AIC 的模型将是首选模型,即如果AIC1<AIC2然后你拿起模型 1,反之亦然。
在第二种情况下,您有一组候选模型,例如模型(1,2,...,n)对于每个模型,您将 AIC 差异计算为Δi=AICiAICmin,其中是第个模型的 AIC,是所有模型中 AIC 的最小值。现在,的模型没有支持,并且可以从进一步考虑中省略,如模型选择和多模型推理: Kenneth P. Burnham,David R. Anderson,第 71 页的实用信息理论方法中所述。所以您的模型就越弱。这里最好的模型有AICiiAICminΔi>10ΔiΔiΔmin0.

AIC 和 BIC 在模型比较方面具有相同的解释。也就是说,AIC 或 BIC 的较大差异表明一个模型比另一个模型更有力的证据(越低越好)。只是 AIC 对参数数量的惩罚不如 BIC 强。还对用于较小样本量的 AIC(AICc)进行了修正。有关 AIC/BIC 比较的更多信息,请参见此处

我通常从不客观地使用 AIC 或 BIC 来描述模型的充分拟合。确实使用这些 IC 来比较两个预测模型的相对拟合。至于 AIC 是“2”还是“4”,完全是上下文相关的。如果您想了解“好的”模型如何拟合,您可以(应该)始终使用模拟。你对AIC的理解是对的。AIC 接收来自参数的贡献和来自可能性的负贡献。您要做的是最大化可能性,而无需为模型加载一堆参数。所以,我的泡沫破灭观点是,断章取义对 AIC 的切断是没有好处的。

这是一个相关的问题,什么时候适合通过最小化 aic 来选择模型?. 它让你大致了解学术界中不知名的人认为哪些内容适合写作,哪些参考文献同样重要。

通常,重要的是可能性或 AIC 之间的差异,而不是它们的绝对值。您在问题的“BIC:0-2 很弱”中错过了重要的单词“差异”——检查 Raftery 的表 6——奇怪的是没有人想要纠正它。

我自己被教导要寻找 MAICE(最小 AIC 估计 - 正如 Akaike 所说)。所以呢?以下是一位名人写给一位不知名女士的信:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

我的老师从未听说过标题为“测试两个 AIC 是否有显着差异”之类的论文,我什至不记得他们曾经将 AIC 称为统计数据,它具有抽样分布和其他属性。我被告知 AIC 是最小化的标准,如果可能的话,以某种自动方式。

另一个重要问题,我认为爱尔兰统计局几年前已经在这里表达过(如果我错了,我很抱歉,因为我没有找到答案)是 AIC、BIC 和其他标准是为不同的目的而得出的,并且在不同的条件(假设)下,如果你的目的是预测,你通常不能互换使用它们。你不能只喜欢不合适的东西。

我的消息来源表明,我引用了 Burnham 和 Anderson (2002, p.70) 的一句话来写 0-2 内的 delta(AIC 差异)有很大的支持;delta 在 4-7 以内的支撑明显较少,而 delta 大于 10 基本上没有支撑。此外,我写道“作者还讨论了这些指南可能有用的条件”。这本书在 Stat 的回答中被引用,我认为这是最相关的。