在scikit-learn 文档中,我发现了以下关于 AIC 的评论:
基于信息准则的模型选择非常快,但它依赖于对自由度的适当估计,是针对大样本(渐近结果)得出的,并假设模型是正确的,即数据实际上是由该模型生成的。当问题条件恶劣(特征多于样本)时,它们也往往会中断。
我的问题是:
- 当我们拥有的特征多于样本时,为什么 AIC 会崩溃?
- 为什么 AIC 和 BIC 常用于 ARIMA 等预测模型?
在scikit-learn 文档中,我发现了以下关于 AIC 的评论:
基于信息准则的模型选择非常快,但它依赖于对自由度的适当估计,是针对大样本(渐近结果)得出的,并假设模型是正确的,即数据实际上是由该模型生成的。当问题条件恶劣(特征多于样本)时,它们也往往会中断。
我的问题是:
在预测模型选择中,我们有哪些替代方案?
为什么后者在时间序列设置中具有吸引力?
*信息标准具有渐近证明,因此在小样本中使用它们并非没有问题。尽管如此,更有效地使用数据比使用效率低下更可取。通过使用整个样本进行估计,您比使用样本的 2/3 更接近渐近线。
首先,正如Richard Hardy 评论的那样,信息标准并不假设我们拥有真正的模型。恰恰相反。例如,AIC 估计所提出的模型与真实数据生成过程之间的 Kullback-Leibler 距离(直到偏移量),并且选择具有最小 AIC 的模型相当于选择与真实 DGP 距离最小的模型。请参阅Burnham & Anderson (2002,模型选择和多模型推理:一种实用的信息理论方法)或Burnham & Anderson (2004, Sociological Methods & Research )以获得可访问的治疗方法。他们还讨论了 BIC 的理由。
信息标准会因过度参数化的模型而失效,但这并不是 IC 的真正问题。相反,每个未正则化的过度参数化模型都会崩溃,并且“正常” IC 不适用于正则化模型。(我相信有适用于正则化模型的 IC 变体,但我不是这方面的专家。)
由于上述关于到真实 DGP 的距离的论点,IC 被用于预测模型选择。一个相关的论点是 AIC 渐近估计预测误差的单调函数(Lütkepohl,2005 年,多时间序列分析新介绍中的第 4.3.1 节,他还介绍了其他模型选择标准)。此外,IC 不是唯一使用的工具:有些人更喜欢使用保持集,但这意味着您需要更多数据。
首先,对不起,这应该是评论而不是答案。这个问题已经很好地回答了。我只是想补充一点,尽管 IC 旨在最大限度地减少与真正 DGP 的距离,但它们可能并不总是能够做到这一点。真正的 DGP 是未知的,并且没有最好的方法来识别最接近它的模型。但是,您可以使用自相关和偏自相关函数帮助 IC。只需查看这些图,您就可以了解模型在滞后方面的外观。这将缩小您的候选模型库,然后您可以选择具有较低 IC 的模型。在我的理解中,IC 着眼于模型如何适应数据的分布,但不包含数据随时间的分布情况。合并自/偏自相关图有助于弥合差距。