为什么 AIC 或 BIC 常用于时间序列预测的模型选择?

机器算法验证 时间序列 预测 有马 模型选择 aic
2022-03-15 02:09:32

scikit-learn 文档中,我发现了以下关于 AIC 的评论:

基于信息准则的模型选择非常快,但它依赖于对自由度的适当估计,是针对大样本(渐近结果)得出的,并假设模型是正确的,即数据实际上是由该模型生成的。当问题条件恶劣(特征多于样本)时,它们也往往会中断。

我的问题是:

  1. 当我们拥有的特征多于样本时,为什么 AIC 会崩溃?
  2. 为什么 AIC 和 BIC 常用于 ARIMA 等预测模型?
3个回答

在预测模型选择中,我们有哪些替代方案?

  • 主要的是交叉验证信息标准

为什么后者在时间序列设置中具有吸引力?

  • 信息标准的计算量较小您只需要拟合模型一次即可计算信息标准。这与交叉验证的大多数应用形成对比。由于许多基本时间序列模型(ARMA、GARCH 等)往往对计算要求相当高(比线性回归等要求更高),因此在时间序列设置中计算效率尤为理想。
  • 信息标准在利用数据方面也更有效,因为模型是在整个样本上估计的,而不仅仅是训练子集。后者在小型数据集*中很重要,尤其是在时间序列设置中。在小数据集中,我们不想遗漏太多的数据进行测试,因为这样就剩下很少的数据用于训练/估计。我们有留一法交叉验证(LOOCV),它在训练/估计中一次只遗漏一个观察值,并且在横截面设置中效果很好。然而,由于观测值的相互依赖,它通常不适用于时间序列设置。其他适用的验证类型的数据成本更高。有关更多详细信息,请参阅“时间序列中的 AIC 与交叉验证:小样本案例”

*信息标准具有渐近证明,因此在小样本中使用它们并非没有问题。尽管如此,更有效地使用数据比使用效率低下更可取。通过使用整个样本进行估计,您比使用样本的 2/3 更接近渐近线。

首先,正如Richard Hardy 评论的那样,信息标准并不假设我们拥有真正的模型。恰恰相反。例如,AIC 估计所提出的模型与真实数据生成过程之间的 Kullback-Leibler 距离(直到偏移量),并且选择具有最小 AIC 的模型相当于选择与真实 DGP 距离最小的模型。请参阅Burnham & Anderson (2002,模型选择和多模型推理:一种实用的信息理论方法)Burnham & Anderson (2004, Sociological Methods & Research )以获得可访问的治疗方法。他们还讨论了 BIC 的理由。

信息标准会因过度参数化的模型而失效,但这并不是 IC 的真正问题。相反,每个未正则化的过度参数化模型都会崩溃,并且“正常” IC 不适用于正则化模型。(我相信有适用于正则化模型的 IC 变体,但我不是这方面的专家。)

由于上述关于到真实 DGP 的距离的论点,IC 被用于预测模型选择。一个相关的论点是 AIC 渐近估计预测误差的单调函数(Lütkepohl,2005 年,多时间序列分析新介绍中的第 4.3.1 节,他还介绍了其他模型选择标准)。此外,IC 不是唯一使用的工具:有些人更喜欢使用保持集,但这意味着您需要更多数据。

首先,对不起,这应该是评论而不是答案。这个问题已经很好地回答了。我只是想补充一点,尽管 IC 旨在最大限度地减少与真正 DGP 的距离,但它们可能并不总是能够做到这一点。真正的 DGP 是未知的,并且没有最好的方法来识别最接近它的模型。但是,您可以使用自相关和偏自相关函数帮助 IC。只需查看这些图,您就可以了解模型在滞后方面的外观。这将缩小您的候选模型库,然后您可以选择具有较低 IC 的模型。在我的理解中,IC 着眼于模型如何适应数据的分布,但不包含数据随时间的分布情况。合并自/偏自相关图有助于弥合差距。