AIC 及其线性回归模型的自由度

机器算法验证 模型选择 套索 aic 岭回归 自由程度
2022-04-01 18:53:45

我有一个具有和三个拟合的线性回归模型:Model1中所有特征的岭回归模型2中的一些特征的岭回归模型3套索回归适用于特征,并且只有特征在拟合后获得非零权重(系数)。SD
DS
d<DS
DSm<D

我想用 AIC 来选择最好的模型。我们知道线性回归模型的 AIC 公式如下: 其中是数量或估计参数(自由度),是样本大小。因此,我们可以轻松计算所有三个模型的 AIC 值。

AIC=2k+nlog(RSS/n).
kn

我有两个问题:
1.我可以比较这些模型的AIC值并选择AIC最低的最好的吗?
我认为答案是肯定的,但是在阅读了 R 包中AIC 函数的文档后,我感到困惑。它声称模型应该适合相同的数据。而我的 Model2 适合(技术上)不同的数据集(在的子集上)。S

2. Model3的值是多少?k
很明显,模型估计值 + 截距估计值 +估计值),类似地, 但是Model3拟合后只有个非零斜率参数。这是否意味着Model3k=D+2Dσ^ε2k=d+2
mk=m+2

1个回答

一些预备知识:在 LASSO 模型中,非零系数的数量是对 lasso 自由度的无偏且一致的估计(参见 Zou et al. (2007) On the "degrees of the lasso "更多细节)。在岭模型中,自由度与居中输入矩阵的奇异值直接相关(有关更多详细信息,请参见 Hastie 等人 (2009) “统计学习的要素第3.4.1 节)。假设矩阵具有SVD,作为函数的自由度是XX X=USVTλdf(λ)=j=1psj2sj2+λ.我们可以清楚地看到,对于,我们得到自由度,对于 ,我们得到自由度。λ0pλ0

基于这些,特别是针对您的问题:

  1. 是的,你的观察是正确的。M1 和 M2 没有拟合相同的数据。也就是说,文档提到了这一点,因为它旨在阻止用户使用响应变量的不同变体和/或比较可能具有不同数据或样本大小的模型。如果我们从“RSS”派生的 AIC 计算转移到“对数似然”派生的计算,这一点会更加明显。假设高斯对数似然为:

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),
其中是我们模型的协方差结构(是它的行列式),我们数据集中的点数,平均响应和我们的因变量。假设我们有相同的因变量,那么在不同的数据集上使用它不会无效。(请注意,尽管对于 BIC,我们确实需要嵌套模型,因此模型协方差结构是分层的)。对自己非常宽容,在 M2 中,我们有一个“类似弹性网”的情况,其中某些解释变量系数被手动设置为K|K||D|μxK0.

  1. 我希望很清楚,M1 和 M2 的的原始计算有点过于简单化了。他们需要直接考虑也就是说,对于 M3,我们将使用个非零系数的数量是正确的。kλm