使用损失函数进行线性回归模型,我为什么要使用大号1大号1代替大号2大号2正则化?
防止过拟合更好吗?它是确定性的(所以总是一个唯一的解决方案)?特征选择是否更好(因为生成稀疏模型)?它会分散特征之间的权重吗?
基本上,我们添加了一个正则化项,以防止系数完美拟合而过度拟合。
L1 和 L2 之间的区别在于 L1 是权重的总和,而 L2 只是权重的平方和。
L1 不能用于基于梯度的方法,因为它不像 L2 那样不可微
L1 有助于在稀疏的特征空间中进行特征选择。特征选择是要知道哪些特征是有用的,哪些是冗余的。
它们的属性之间的差异可以概括为:
L2 相对于 L1 有一个非常重要的优势,那就是对旋转和缩放的不变性。
这在地理/物理应用中尤为重要。
假设您的技术人员不小心将传感器安装在 45 度角,L1 会受到影响,而 L2(欧几里得距离)将保持不变。