机器算法验证 - 为什么 AIC 或 BIC 常用于时间序列预测的模型选择？ - 吾爱随笔录

为什么 AIC 或 BIC 常用于时间序列预测的模型选择？

机器算法验证时间序列预测有马模型选择 aic

2022-03-15 02:09:32

在scikit-learn 文档中，我发现了以下关于 AIC 的评论：

基于信息准则的模型选择非常快，但它依赖于对自由度的适当估计，是针对大样本（渐近结果）得出的，并假设模型是正确的，即数据实际上是由该模型生成的。当问题条件恶劣（特征多于样本）时，它们也往往会中断。

我的问题是：

当我们拥有的特征多于样本时，为什么 AIC 会崩溃？
为什么 AIC 和 BIC 常用于 ARIMA 等预测模型？

3个回答

在预测模型选择中，我们有哪些替代方案？

主要的是交叉验证和信息标准。

为什么后者在时间序列设置中具有吸引力？

信息标准的计算量较小。您只需要拟合模型一次即可计算信息标准。这与交叉验证的大多数应用形成对比。由于许多基本时间序列模型（ARMA、GARCH 等）往往对计算要求相当高（比线性回归等要求更高），因此在时间序列设置中计算效率尤为理想。
信息标准在利用数据方面也更有效，因为模型是在整个样本上估计的，而不仅仅是训练子集。后者在小型数据集*中很重要，尤其是在时间序列设置中。在小数据集中，我们不想遗漏太多的数据进行测试，因为这样就剩下很少的数据用于训练/估计。我们有留一法交叉验证（LOOCV），它在训练/估计中一次只遗漏一个观察值，并且在横截面设置中效果很好。然而，由于观测值的相互依赖，它通常不适用于时间序列设置。其他适用的验证类型的数据成本更高。有关更多详细信息，请参阅“时间序列中的 AIC 与交叉验证：小样本案例”。

*信息标准具有渐近证明，因此在小样本中使用它们并非没有问题。尽管如此，更有效地使用数据比使用效率低下更可取。通过使用整个样本进行估计，您比使用样本的 2/3 更接近渐近线。

首先，正如Richard Hardy 评论的那样，信息标准并不假设我们拥有真正的模型。恰恰相反。例如，AIC 估计所提出的模型与真实数据生成过程之间的 Kullback-Leibler 距离（直到偏移量），并且选择具有最小 AIC 的模型相当于选择与真实 DGP 距离最小的模型。请参阅Burnham & Anderson (2002,模型选择和多模型推理：一种实用的信息理论方法)或Burnham & Anderson (2004, Sociological Methods & Research )以获得可访问的治疗方法。他们还讨论了 BIC 的理由。

信息标准会因过度参数化的模型而失效，但这并不是 IC 的真正问题。相反，每个未正则化的过度参数化模型都会崩溃，并且“正常” IC 不适用于正则化模型。（我相信有适用于正则化模型的 IC 变体，但我不是这方面的专家。）

由于上述关于到真实 DGP 的距离的论点，IC 被用于预测模型选择。一个相关的论点是 AIC 渐近估计预测误差的单调函数（Lütkepohl，2005 年，多时间序列分析新介绍中的第 4.3.1 节，他还介绍了其他模型选择标准）。此外，IC 不是唯一使用的工具：有些人更喜欢使用保持集，但这意味着您需要更多数据。

首先，对不起，这应该是评论而不是答案。这个问题已经很好地回答了。我只是想补充一点，尽管 IC 旨在最大限度地减少与真正 DGP 的距离，但它们可能并不总是能够做到这一点。真正的 DGP 是未知的，并且没有最好的方法来识别最接近它的模型。但是，您可以使用自相关和偏自相关函数帮助 IC。只需查看这些图，您就可以了解模型在滞后方面的外观。这将缩小您的候选模型库，然后您可以选择具有较低 IC 的模型。在我的理解中，IC 着眼于模型如何适应数据的分布，但不包含数据随时间的分布情况。合并自/偏自相关图有助于弥合差距。

其它你可能感兴趣的问题

上一篇免费的树图软件下一篇哪些数学课与机器学习相关？