什么是AIC?寻找正式但直观的答案

机器算法验证 状态 aic 直觉
2022-03-01 12:33:03

我听说 AIC 可用于在几种模型中进行选择(使用哪个回归器)。

但我想正式了解它在一种“高级本科生”级别中是什么,我认为这将是正式的,但从公式中产生直觉。

是否可以使用复杂的调查数据在 stata 中实施 AIC?

3个回答

是您的真实分布,而是您试图从中拟合数据的族。那么参数的最大似然估计量,是一个随机变量。您可以将模型选择公式化为找到之间的预期 KL 散度 ,可以写为fgθggfg(θ)

Entropy(f)ExEy[log(g(x|θ(y)))]

由于您要对进行最小化,因此 Entropy( ) 项无关紧要,您要寻找使的 g 。gfgExEy[log(g(x|θ(y)))]

是根据的可能性您可以将估计为,但该估计量是有偏差的。L(θ(y)|y)yg(θ)ExEy[log(g(x|θ(y)))]log(L(θ(y)|y))

Akaike 表明,当属于维度族时,以下估计量是渐近无偏的fgk

log(L(θ(y)|y))k

Burnham 在本文中有更多细节, Enes Makalic 的博客文章也有进一步的解释和参考

这是一种启发式方法,因此已经过广泛的测试。因此,何时信任它或不信任它不是简单的明确且永远正确的决定。

粗略地说,它权衡了拟合优度和变量数量(“自由度”)。像往常一样,更多关于 AIC 的维基百科文章

基本上,需要一个损失函数来优化任何东西。AIC 提供的损失函数在最小化时会给出一个适合给定数据的“最佳”* 模型。AIC 损失函数 (2k-2*log(L)) 试图制定每个统计建模者在将模型拟合到有限数据集时所面临的偏差方差权衡。

换句话说,在拟合模型时,如果您增加参数数量,您将提高对数似然性,但会遇到过度拟合的危险。AIC 会因增加参数数量而受到惩罚,从而最小化 AIC 选择模型,其中对数似然的改进不值得因增加参数数量而受到惩罚。

  • 请注意,当我说最优模型时,它在模型最小化 AIC 的意义上是最优的。还有其他标准(例如 BIC)可能会给出其他“最佳”模型。

我对 stata 没有任何经验,因此无法帮助您解决问题的另一部分。