AIC值解读

机器算法验证 回归 模型选择 aic 准确性
2022-03-11 04:59:28

我在逻辑模型中看到的 AIC 的典型值是数千,至少是数百。例如,在http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ 上,AIC 是 727.39

虽然总是说 AIC 只能用于比较模型,但我想了解特定 AIC 值的含义。根据公式, AIC=2log(L)+2K

其中,L = MLE 估计器的最大似然,K 是参数的数量

在上面的例子中,K = 8

所以,用简单的算术:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

所以,如果我的理解是正确的,这就是 MLE 识别的函数拟合数据的可能性。这似乎真的真的真的很低。

我在这里想念什么?

4个回答

模型没有“典型”或正确的可能性。AIC相同,即对多个参数进行负对数似然惩罚。AIC 的较低值表明模型“更好”,但它是模型拟合的相对度量。它用于模型选择,即它可以让您比较在同一数据集上估计的不同模型。

回想一下GEP Box 说“所有模型都是错误的,但有些是有用的”,您对找到与您的数据完美拟合的模型不感兴趣,因为这是不可能的,而且这种模型在很多情况下会是一个非常糟糕、过度拟合的模型. 相反,你正在寻找你能得到的最好的,最有用的。AIC 背后的总体思想是参数数量较少的模型更好,这与Occam 的剃刀论点在某种程度上一致,即我们更喜欢简单的模型而不是复杂的模型。

您可以查看以下文件:

Anderson, D. 和 Burnham, K. (2006)。AIC 的神话和误解。

伯纳姆,KP 和安德森博士(2004 年)。多模型推理。了解模型选择中的 A​​IC 和 BIC。 社会学方法与研究,33 (2), 261-304。

和那些线程:

“可能性”和“概率”有什么区别?

是否有任何理由更喜欢 AIC 或 BIC?

高度相关我喜欢在似然比尺度上陈述 AIC,尽管这不是传统的,即重述 AIC = df 广义度量之一是尽管我们仍然不知道必须有多大才能使模型被认为是高度歧视的,但至少是无单位的。R2χ2χ22×R21exp(χ2/n)R2R2

这似乎真的真的真的很低。我在这里想念什么?

诸如 AIC 等涉及对数似然使用的量仅相对于其他此类量才有意义。请记住,似然函数仅定义为缩放常数,因此可以随意放大或缩小。因此,对数似然只定义为一个位置常数,并且可以随意向上或向下移动。这也适用于 AIC,因为这个数量只是对数似然,通过对参数数量的惩罚来移动。这就是说AIC只能用于比较模型的原因。

在计算机例程中,似然函数通常直接从采样密度定义,而不去除不必要的常数,因此在这种情况下,缩放问题可能不是一个因素。您链接到的R Bloggers 帖子中,逻辑回归中使用了您给出的数字的对数似然是:n=800

^=(727.92×8)/(2)=355.95.

因此,每个数据点的平均对数似然为,对应于单个数据点这不是特别低,不应该引起任何警报。^/n=0.44493750.6408643

您已经正确指出,如果您使用 R 报告的 AIC 反算可能性,您会得到低得离谱的可能性。原因是R报告的AIC值(称为AICrep)不是真正的AIC(AICtrue)。AICrep 和 AICtrue 的区别在于一个常数,该常数取决于测量数据,但与所选模型无关。因此,从 AICrep 反向计算的可能性将是不正确的。当使用不同的模型来拟合相同的数据时,AIC 的差异有助于选择最佳模型