什么时候适合通过最小化 AIC 来选择模型?

机器算法验证 时间序列 模型选择 aic
2022-01-29 16:29:01

至少在一些更高水平的统计学家中,AIC 统计量值在最小值的某个阈值内的模型应该被认为是最小化 AIC 统计量的模型是合适的。例如,在 [1, p.221] 我们发现

那么具有小 GCV 或 AIC 的模型将被认为是最好的。当然,不应该只是盲目地最小化 GCV 或 AIC。相反,所有具有相当小的 GCV 或 AIC 值的模型都应被视为可能合适,并根据其简单性和科学相关性进行评估。

同样,在 [2, p.144] 我们有

有人建议 (Duong, 1984) AIC 值在最小值 c 内的模型应该被认为是有竞争力的(c=2 作为典型值)。然后可以根据残差的白度(第 5.3 节)和模型简单性等因素从竞争模型中进行选择。

参考:

  1. 鲁珀特,D。Wand,MP & Carrol,RJ半参数回归,剑桥大学出版社,2003
  2. Brockwell, PJ & Davis, RA时间序列和预测简介,John Wiley & Sons,1996

那么鉴于上述情况,应该首选以下两种模型中的哪一种?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

更一般地说,什么时候适合通过盲目地最小化 AIC 或相关统计量来选择模型?

3个回答

我会说在模型选择中使用AIC通常是合适的,但很少将它用作模型选择的唯一基础。我们还必须使用实质性知识。

在您的特定情况下,您正在比较具有 3 阶 AR 的模型与具有 1 阶 AR 的模型。除了 AIC(或类似的东西)之外,我还会查看自相关和偏自相关图。我还会考虑三阶模型的含义是否有意义?它是否增加了实质性知识?(或者,如果您只对预测感兴趣,它是否有助于预测?)

更一般地说,有时找到一个非常小的效果大小是很有趣的。

您可以将 AIC 视为提供更合理(即更大)的值截止值。但是基于值或任何其他一次一个变量的度量的模型选择充满了困难,存在逐步变量选择的所有问题。一般来说,如果用于选择唯一的单个参数(例如收缩系数)或比较 2 或 3 个候选模型,AIC 效果最好。否则,以某种方式拟合整个变量集,使用收缩或数据缩减,通常会导致出色的预测歧视。简约与预测性歧视相矛盾。PP

套用 Cosma Shalizi关于线性回归真相的讲义,你永远不能仅仅因为它碰巧最小化了像 AIC 这样的统计量而选择模型,因为

每当有人单独使用 AIC 统计量进行模型选择时,天使就会失去翅膀。每当有人轻率地贬低它时,天使不仅失去了翅膀,而且被逐出天堂,在极度的痛苦中坠入永恒的火中。