当变量多于观察值时,收缩方法(例如 Ridge 和 Lasso)是否总能找到解决方案?

机器算法验证 回归 最小二乘 套索 岭回归
2022-04-07 18:13:50

假设我们有n观察和p我们要建模的解释变量。为了应用岭回归,我们选择一个约束参数λ0并估计系数βi最小化:

i=1n(yiβoj=1pβjxij)+λj=1pβj2

在哪里yi是观察结果和xij是变量。

我正在阅读《统计学习导论》,其中说:

当 λ = 0 时,惩罚项没有影响,岭回归会产生最小二乘估计

和(岭回归):

如果 p > n,那么最小二乘估计甚至没有唯一解,而岭回归仍然可以很好地执行

我的问题如下:

  1. 我是否正确地说岭回归(和套索)失败时p>nλ=0,由于等于最小二乘?

  2. 如果是这样,是否有适合所有人的解决方案λ>0什么时候p>n, 特别是当λ非常接近于零?

  3. 如果有适合所有人的解决方案λ>0什么时候p>n,由于优化问题与最小二乘法的接近性,是否有理由对应用这样的收缩方法持谨慎态度?

1个回答
  1. 是的,p>n,λ=0case 是秩不足的。既然您已经知道 OLS 用于p>n是秩亏的,那么我们可以看到代入λ=0在你的方程中给出了与 OLS 相同的目标,并且证明是完整的。

  2. 是的,岭回归适用于任何λ>0. 直接的证明是λI是正定的,所以λI+XTX必须是正定的。您也可以通过应用 SVD 来证明这一点,并证明岭案例中的奇异值都是正数。通过“谱分解”使用岭回归证明缩小系数但是,作为在计算机(而不是数学)上进行计算的问题,选择λ太小可能不起作用,因为浮点运算不精确。

  3. 这本质上是一个问题. 如果我们选择λ太大,那么对系数的惩罚太高,我们的预测可能离现实太远而无用。如果我们选择λ太小,那么模型的方差可能太高——估计会受到我们特定数据集的强烈影响。在极端情况下,排除或包括单个数据可能会从根本上改变系数估计。