这篇文章紧随其后:为什么通过在对角线上添加一个常数,岭估计变得比 OLS 更好?
这是我的问题:
据我所知,岭正则化使用-范数(欧几里得距离)。但是为什么我们使用这个范数的平方呢?(直接应用将导致 beta 平方和的平方根)。
作为比较,我们不会为 LASSO 这样做,它使用-norm 进行正则化。但这里是“真实的”范数(只是 beta 绝对值的平方和,而不是这个和的平方)。
有人可以帮我澄清一下吗?
这篇文章紧随其后:为什么通过在对角线上添加一个常数,岭估计变得比 OLS 更好?
这是我的问题:
据我所知,岭正则化使用-范数(欧几里得距离)。但是为什么我们使用这个范数的平方呢?(直接应用将导致 beta 平方和的平方根)。
作为比较,我们不会为 LASSO 这样做,它使用-norm 进行正则化。但这里是“真实的”范数(只是 beta 绝对值的平方和,而不是这个和的平方)。
有人可以帮我澄清一下吗?
现在有很多具有各种不同惩罚函数的惩罚方法(岭、套索、MCP、SCAD)。为什么是一种特定形式的问题基本上是“这种惩罚提供了哪些优点/缺点?”。
感兴趣的属性可能是:
1) 几乎无偏的估计量(注意所有受惩罚的估计量都会有偏)
2)稀疏性(注意岭回归不会产生稀疏结果,即它不会将系数一直缩小到零)
3)连续性(避免模型预测不稳定)
这些只是一些可能对惩罚函数感兴趣的属性。
在推导和理论工作中使用总和要容易得多:例如和. 想象一下,如果我们有或者. 采用导数(这是显示一致性、渐近正态性等理论结果所必需的)将是一种痛苦的惩罚。
实际上,两者的平方-规范和-norm 来自同一类正则化:当时。
然后,Ridge 回归使用和 Lasso但可以使用其他值。
例如,对于的值越小,解决方案就越稀疏。
对于的值,您的目标不再平滑,因此优化变得更加困难;对于,目标是非凸的,因此优化更加困难......
我相信这里有一个更简单的答案,尽管在开发技术时总是很难回答“为什么”的问题。使用平方范数,以便正则化项很容易区分。岭回归最小化:
也可以写成:
现在可以很容易地区分 wrt以获得封闭形式的解决方案:
从中可以得出各种推论。
范数的平方(即岭回归)和未修改范数之间的另一个重要区别的范数在处的导数由,因此在零向量处不可微。也就是说,尽管范数不像 lasso 那样进行个体变量选择,但理论上它可以产生\作为最大惩罚似然的解。通过平方在惩罚范数中,岭型惩罚在任何地方都是可微的,并且永远不会产生这样的解决方案。
这种行为正是(根据我的理解)为什么组套索(Yuan 和 Lin)和稀疏组套索(Simon 等人)等使用范数(在预先指定的系数子集上)而不是平方规范。