岭回归是否总是以相等的比例减少系数?

数据挖掘 回归 统计数据 数据科学模型 正则化 岭回归
2022-01-25 11:43:51

以下是《R 中的统计学习简介》一书的节选,(章节线性模型选择和正则化)

“在岭回归中,每个最小二乘系数估计都缩小了相同的比例”

在一个简单的数据集上,我使用 OLS 获得了 2 个非截距系数 b1=-0.03036156 和 b2=-0.02481822。在 lambda=1 的 l2 收缩上,新系数为 b1=-0.01227141 和 b2=-0.01887098。两者都没有以相等的比例减少。我在这里想念什么?

笔记:

  1. 在《统计学习导论》一书中对引用的陈述所做的假设是 n=p
  2. 我的数据集中两个变量的比例相同
1个回答

据我所知,我们有以下岭回归方程:

RSSRidge=Σi=1n(y^iyi)2λΣj=1p(β2)

首先,在我看来,如果 lambda 变高并不意味着系数与 lambda 成反比下降。因为 beta 的幂是 2 而 lambda 是 1。

我认为您参考了“统计学习简介”一书的第226页。在该图的脚注中,作者说:

"The ridge regression and lasso coefficient estimates for a simple setting with n = p and X 

a diagonal matrix with 1’s on the diagonal. Left: The ridge regression coefficient estimates

are shrunken proportionally towards zero, relative to the least-squares estimates.

Right: The lasso coefficient estimates are soft-thresholded towards zero."

在该图中显示,如果我们在 OLS 模型中得到 +2 和 -2 系数,并且如果 Ridge 缩小 +2 到 +1.8,那么我们确信 Ridge 将缩小 -2 到 -1.8。因此,在这两种情况下,具有相同比例的 0.2 系数接近于零。