AIC 中“参数数量”的含义

机器算法验证 aic
2022-01-30 23:25:06

在计算 AIC 时,

AIC=2k2lnL

k 表示“参数数量”。但是什么算作参数呢?所以例如在模型中

y=ax+b

a 和 b 总是算作参数吗?如果我不关心截距的值,我可以忽略它还是仍然算数?

如果什么

y=af(c,x)+b

其中是 c 和 x 的函数,我现在计算 3 个参数吗?f

3个回答

正如 mugen 所提到的,表示估计的参数数量。换句话说,它是您需要知道的附加数量的数量才能完全指定模型。在简单的线性回归模型 中,您可以估计或两者。无论您没有估算出哪个数量,您都必须修复。在您不知道并且不关心它的意义上,没有“忽略”参数。不估计的最常见模型是无截距模型,我们在其中固定这将有 1 个参数。您可以轻松修复k

y=ax+b
ababb=0a=2b=1如果你有理由相信它反映了现实。(要点:也是简单线性回归中的一个参数,但由于它存在于每个模型中,您可以在不影响 AIC 比较的情况下删除它。)σ

如果您的模型是 参数的数量取决于您是否修复了这些值中的任何一个,以及的形式。例如,如果我们想估计并知道,那么当我们写出模型时,我们有 和三个未知参数。但是,如果,那么我们就有模型 ,它实际上只有两个参数:

y=af(c,x)+b
fa,b,cf(c,x)=xc
y=axc+b
f(c,x)=cx
y=acx+b
acb

是一个索引的函数,这一点至关重要如果您只知道是连续的并且它取决于,那么您就不走运了,因为有无数个连续函数。f(c,x)cf(c,x)cx

对于任何统计模型,AIC 值为 其中 k 是模型中的参数数量,L 是模型似然函数的最大值。AIC=2k2ln(L)

(见这里

如您所见,表示每个模型中估计的参数数量。如果您的模型包含截距(即,如果您计算截距的点估计、方差和置信区间),则它计为参数。另一方面,如果您正在计算一个没有截距的模型,则它不计算在内。k

请记住,AIC 不仅总结了拟合优度,还考虑了模型的复杂性。这就是存在的原因,以惩罚具有更多参数的模型。k

我觉得知识不够,无法回答您的第二个问题,我将把它留给社区的另一位成员。

首先,对于那些可能不熟悉 AIC 的人:Akaike 信息准则 (AIC) 是一个简单的度量标准,旨在比较模型的“好坏”。

根据 AIC,当尝试在应用于相同输入和响应变量的两个不同模型之间进行选择时,即设计用于解决相同问题的模型时,具有较低 AIC 的模型被认为是“更好”的。

在 AIC 公式中,是指模型中变量(输入特征或列)的数量。模型越复杂(获得估计或预测所需的变量越多),AIC 越高。这确保了在具有相同预测能力或准确性的两个模型中,更简单的模型获胜。这是奥卡姆剃刀的一种形式。k

所以最后一个问题的简单答案是:如果f(c, x)c是一个不随观察而改变的常数,那么它应该包含在中。f(c,x)k