为什么在 L2 上使用 L1 正则化?

数据挖掘 线性回归 正则化
2021-09-27 03:34:45

使用损失函数进行线性回归模型,我为什么要使用大号1代替大号2正则化?

防止过拟合更好吗?它是确定性的(所以总是一个唯一的解决方案)?特征选择是否更好(因为生成稀疏模型)?它会分散特征之间的权重吗?

2个回答

基本上,我们添加了一个正则化项,以防止系数完美拟合而过度拟合。

L1 和 L2 之间的区别在于 L1 是权重的总和,而 L2 只是权重的平方和。

L1 不能用于基于梯度的方法,因为它不像 L2 那样不可微

L1 有助于在稀疏的特征空间中进行特征选择。特征选择是要知道哪些特征是有用的,哪些是冗余的。

它们的属性之间的差异可以概括为:

l1 与 l2

L2 相对于 L1 有一个非常重要的优势,那就是对旋转和缩放的不变性。

这在地理/物理应用中尤为重要。

假设您的技术人员不小心将传感器安装在 45 度角,L1 会受到影响,而 L2(欧几里得距离)将保持不变。