对 LASSO 自由度的直觉

机器算法验证 回归 套索 自由程度 正则化
2022-02-28 22:10:27

邹等人。“关于套索的“自由度””(2007 年)表明,非零系数的数量是对套索自由度的无偏且一致的估计。

这对我来说似乎有点违反直觉。

  • 假设我们有一个回归模型(变量为零均值)

y=βx+ε.

  • 的无限制 OLS 估计对于非常低的惩罚强度,大致一致。ββ^OLS=0.5β
  • 进一步假设对特定惩罚强度的 LASSO 估计是例如,可能是使用交叉验证找到的手头数据集的“最佳”λβ^LASSO,λ=0.4λλ
  • 如果我理解正确,在这两种情况下,自由度都是 1,因为两次都有一个非零回归系数。

问题:

  • 即使表明拟合的“自由度”低于 ,为什么两种情况下的自由度相同?β^LASSO,λ=0.4β^OLS=0.5

参考:

1个回答

假设我们有一组维观察, ,假设模型的形式为: 其中 ,表示内积。是使用拟合方法(我们的目的是 OLS 或 LASSO)的估计。文章中给出的自由度公式(公式 1.2)为: n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

通过检查这个公式,我们可以推测,按照你的直觉,LASSO 的真实DOF 确实会小于 OLS 的真实DOF;LASSO 影响的系数收缩应该倾向于降低协方差。

现在,为了回答您的问题,LASSO 的 DOF 与您示例中 OLS 的 DOF 相同的原因只是您正在处理从模型中采样的特定数据集获得的估计值(尽管是无偏的) ,真实的自由度值。对于任何特定的数据集,这样的估计将不等于真实值(特别是因为估计需要是整数,而真实值通常是实数)。

然而,当这样的估计在从模型中采样的许多数据集上进行平均时,根据无偏性和大数定律,这样的平均值将收敛到真实的自由度。在 LASSO 的情况下,其中一些数据集将产生一个系数实际上为 0 的估计器(尽管这样的数据集可能很少见,如果λ是小)。在 OLS 的情况下,DOF 的估计值始终是系数的数量,而不是非零系数的数量,因此 OLS 情况的平均值将不包含这些零。这显示了估计量的不同之处,以及 LASSO DOF 的平均估计量如何收敛到比 OLS DOF 的平均估计量更小的值。