假设我们有一组维观察, ,。假设模型的形式为:
其中 ,和表示内积。令是使用拟合方法(我们的目的是 OLS 或 LASSO)的估计。文章中给出的自由度公式(公式 1.2)为:
n pxi∈Rpi=1,…,n
Yi=⟨β,xi⟩+ϵ
ϵ∼N(0,σ2)β∈Rp⟨⋅,⋅⟩β^=δ({Yi}ni=1)βδdf(β^)=∑i=1nCov(⟨β^,xi⟩,Yi)σ2.
通过检查这个公式,我们可以推测,按照你的直觉,LASSO 的真实DOF 确实会小于 OLS 的真实DOF;LASSO 影响的系数收缩应该倾向于降低协方差。
现在,为了回答您的问题,LASSO 的 DOF 与您示例中 OLS 的 DOF 相同的原因只是您正在处理从模型中采样的特定数据集获得的估计值(尽管是无偏的) ,真实的自由度值。对于任何特定的数据集,这样的估计将不等于真实值(特别是因为估计需要是整数,而真实值通常是实数)。
然而,当这样的估计在从模型中采样的许多数据集上进行平均时,根据无偏性和大数定律,这样的平均值将收敛到真实的自由度。在 LASSO 的情况下,其中一些数据集将产生一个系数实际上为 0 的估计器(尽管这样的数据集可能很少见,如果λ是小)。在 OLS 的情况下,DOF 的估计值始终是系数的数量,而不是非零系数的数量,因此 OLS 情况的平均值将不包含这些零。这显示了估计量的不同之处,以及 LASSO DOF 的平均估计量如何收敛到比 OLS DOF 的平均估计量更小的值。