机器算法验证 - Ridge & LASSO 规范 - 吾爱随笔录

Ridge & LASSO 规范

机器算法验证套索正则化岭回归

2022-01-24 11:20:13

这篇文章紧随其后：为什么通过在对角线上添加一个常数，岭估计变得比 OLS 更好？

这是我的问题：

据我所知，岭正则化使用 $\ell_2$ -范数（欧几里得距离）。但是为什么我们使用这个范数的平方呢？（直接应用 $\ell_2$ 将导致 beta 平方和的平方根）。

作为比较，我们不会为 LASSO 这样做，它使用 $\ell_1$ -norm 进行正则化。但这里是“真实的” $\ell_1$ 范数（只是 beta 绝对值的平方和，而不是这个和的平方）。

有人可以帮我澄清一下吗？

4个回答

现在有很多具有各种不同惩罚函数的惩罚方法（岭、套索、MCP、SCAD）。为什么是一种特定形式的问题基本上是“这种惩罚提供了哪些优点/缺点？”。

感兴趣的属性可能是：

1) 几乎无偏的估计量（注意所有受惩罚的估计量都会有偏）

2）稀疏性（注意岭回归不会产生稀疏结果，即它不会将系数一直缩小到零）

3）连续性（避免模型预测不稳定）

这些只是一些可能对惩罚函数感兴趣的属性。

在推导和理论工作中使用总和要容易得多：例如 $||\beta||_2^2=\sum |\beta_i|^2$ 和 $||\beta||_1 = \sum |\beta_i|$ . 想象一下，如果我们有 $\sqrt{\left(\sum |\beta_i|^2\right)}$ 或者 $\left( \sum |\beta_i|\right)^2$ . 采用导数（这是显示一致性、渐近正态性等理论结果所必需的）将是一种痛苦的惩罚。

实际上，两者的平方 $\ell_2$ -规范和 $\ell_1$ -norm 来自同一类正则化： $\|\boldsymbol{\beta}\|_p^p$ 当时。 $p > 0$

然后，Ridge 回归使用和 Lasso但可以使用其他值。 $p=2$ $p=1$ $p$

例如，对于的值越小，解决方案就越稀疏。 $p \leq 1$ $p$

对于的值，您的目标不再平滑，因此优化变得更加困难；对于，目标是非凸的，因此优化更加困难...... $p \leq 1$ $p<1$

我相信这里有一个更简单的答案，尽管在开发技术时总是很难回答“为什么”的问题。使用平方范数，以便正则化项很容易区分。岭回归最小化： $l_2$

‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{2}^{2}

$\|\mathbf{y - X\beta}\|^2_2+\lambda\|\beta\|_2^2$

也可以写成：

‖ y - X β ‖_{2}^{2} + λ β^{T} β

$\|\mathbf{y - X\beta}\|^2_2+\lambda\beta^T\beta$

现在可以很容易地区分 wrt以获得封闭形式的解决方案： $\beta$

{\hat{β}}^{ridge} = (X^{T} X + λ I)^{- 1} X^{T} y

$\hat\beta^{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda I)^{-1}\mathbf{X}^T\mathbf{y}$

从中可以得出各种推论。

范数的平方（即岭回归）和未修改范数之间的另一个重要区别的范数在处的导数由，因此在零向量处不可微。也就是说，尽管范数不像 lasso 那样进行个体变量选择，但理论上它可以产生\作为最大惩罚似然的解。通过平方 $\ell_2$ $\ell_2$ $\ell_2$ $x$ $||x||_2$ $x$ $\frac{x}{ ||x||_2}$ $\ell_2$ $\beta=0$ $\ell_2$ 在惩罚范数中，岭型惩罚在任何地方都是可微的，并且永远不会产生这样的解决方案。

这种行为正是（根据我的理解）为什么组套索（Yuan 和 Lin）和稀疏组套索（Simon 等人）等使用范数（在预先指定的系数子集上）而不是平方规范。 $\ell_2$ $\ell_2$

其它你可能感兴趣的问题

上一篇为什么我们需要 MCMC 结果的轨迹图下一篇summary.glm() 中的分散