渐近地,最小化 AIC 等效于最小化横截面数据的留一法交叉验证 MSE [ 1 ]。那么当我们有 AIC 时,为什么要使用将数据划分为训练集、验证集和测试集的方法来衡量模型的预测属性呢?这种做法的具体好处是什么?
我能想到一个原因:如果要评估模型的预测性能,样本外分析很有用。但是,尽管 AIC 不是预测准确性的衡量标准,但就您将能够预测的程度而言,如果某个模型达到其最大潜力(对于给定的数据),通常会有一个好主意。
渐近地,最小化 AIC 等效于最小化横截面数据的留一法交叉验证 MSE [ 1 ]。那么当我们有 AIC 时,为什么要使用将数据划分为训练集、验证集和测试集的方法来衡量模型的预测属性呢?这种做法的具体好处是什么?
我能想到一个原因:如果要评估模型的预测性能,样本外分析很有用。但是,尽管 AIC 不是预测准确性的衡量标准,但就您将能够预测的程度而言,如果某个模型达到其最大潜力(对于给定的数据),通常会有一个好主意。
在实践中,我总是使用交叉验证或简单的训练-测试拆分而不是 AIC(或 BIC)。我不太熟悉 AIC 背后的理论,但有两个主要问题让我更喜欢对预测准确性进行更直接的估计:
该数字本身并不能告诉您模型的准确程度。AIC 可以提供几个模型中哪一个最准确的证据,但它不能告诉您模型以 DV 为单位的准确度。我几乎总是对这种具体的准确度估计感兴趣,因为它告诉我一个模型在绝对意义上有多有用,以及它比比较模型准确多少。
AIC 与 BIC 一样,需要为每个模型提供一个参数计数或一些其他值来衡量模型的复杂性。对于最近邻分类、随机森林或您在上个月的酒席中途在鸡尾酒餐巾纸上乱涂乱画的古怪新集成方法等较不传统的预测方法,目前尚不清楚您应该为此做些什么。相比之下,可以以相同的方式为任何预测模型生成准确度估计。