我一直在努力寻找有意义的指导方针来比较基于 AIC 差异的模型。我不断回到Burnham & Anderson 2004 年提供的经验法则,第 270-272 页:
一些简单的经验法则通常有助于评估集合中模型的相对优点:≤ 2 有实质性支持(证据),其中 4 ≤≤ 7 的支持要少得多,并且模型具有> 10 基本上没有支持。
例如,请参阅以下问题:
我试图理解这些阈值数字 2、4、7 和 10 的合理理由。关于 Akaike 信息标准的维基百科文章就这个问题提供了一些指导:
假设有 R 个候选模型。用 AIC1、AIC2、AIC3、…、AICR 表示这些模型的 AIC 值。令 AICmin 为这些值中的最小值。那么 exp((AICmin - AICi)/2) 可以解释为与第 i 个模型最小化(估计的)信息损失的概率成正比。
例如,假设有三个候选模型,其 AIC 值为 100、102 和 110。那么第二个模型的概率是第一个模型的 exp((100 − 102)/2) = 0.368 倍,以最小化信息丢失。类似地,第三个模型是 exp((100 − 110)/2) = 0.007 倍于第一个模型的概率以最小化信息损失。
因此,根据这些信息,我编制了下表:
- delta_aic:所有被比较模型的最小 AIC 减去正在考虑的第i个模型的 AIC。在 Wikipedia 示例中,AIC=100 的模型的 delta_aic 为 0,AIC=102 的模型为 2,AIC=110 的模型的 delta_aic 为 10。
- prob(min vs. i):模型 i 的概率是最小模型的 x 倍,以最小化信息丢失。在维基百科的例子中,AIC=100 的模型是等概率的,AIC=102 的模型是概率的 0.368 倍,AIC=110 的模型是概率的 0.007 倍。
- prob(i vs. min):这只是 1/prob(min vs. i)。因此,这意味着最小模型的概率是模型 i 的 x 倍,以最小化信息丢失。在 Wikipedia 示例中,AIC=100 的模型的概率相同,最小模型的概率是 AIC=102 的模型的 2.7 倍,最小模型的概率是 AIC=110 的模型的 148.4 倍。
好的,所以我想我对数学有所了解,但我真的不明白这一切在实际选择一个模型而不是另一个模型方面意味着什么。经验法则说,如果最小模型的概率是另一个模型的 2.7 倍(即≤ 2),那么这两个模型实际上是等价的。但是为什么 2.7 倍的概率在最小化信息时如此之少以至于没有任何影响呢?那有什么意思?同样,经验法则说,只有当你到达最小模型的概率是另一个模型的 148.4 倍时(即,> 10) 你会说正在考虑的模型不能再以任何有意义的方式被认为是等效的。这不是极其巨大的容忍度吗?
即使以这种方式在数学上分解它,经验法则对我来说仍然没有任何直观意义。所以,这让我想到了我的问题:
- 有人可以为可接受的 AIC 差异的普遍接受的经验法则解释一个简单的逻辑理由吗?
- 或者,有人可以提供比这个经验法则更合理的替代理性标准吗?