关于这个话题有很多误解。
(satinder singh) 为什么减小坡度只会提供更好的性能,增加坡度也是一种选择吗?
减轻重量并不会带来更好的性能。在无限正则化的极限中,您得到的模型将是一个常数(如果您的权重总是乘以自变量)。模型的质量显然很差。正则化的目标是通过惩罚大权重来防止过拟合。
但是为什么大权重有问题呢?想象一下下面这组三点(0,0),(ε,1)和(1,1). 如果您尝试拟合多项式y(xn)=w0+w1xn+w2x2n您将获得以下系数w0=0,w1=1+ε−1, 和w2=−ε−1. 为了ε→0系数会发散。如果您查看这三点,您会发现得到的解决方案只是过度拟合数据。这个例子表明,大权重是过度拟合的标志。
为了抵消这种影响,我们可以引入一个正则化项R(w)(为零w=0) 并构造正则化损失函数Ereg(w)=E(w)+λR(w). 为了λ→0我们将获得原始的非正则化损失函数E(w). 为了λ→∞正则化损失函数将由正则化项控制,该项被最小化w=0. 因此,对于无限正则化,您肯定会防止您的模型过度拟合。正则化的目标是确定一个最优的λoptimal这可以防止模型过度拟合训练数据(防止权重过大)并且仍然能够泛化到测试数据。
(vivek) 据我所知,只有 L1 具有降低较低有效特征的系数的影响,而不是 L2。
两个正则化L1和L2将通过减少相关的权重来减少不太重要的特征。L1正则化能够将一些系数设置为0正是而L2通常会导致较小的权重,但不会精确0.