使用正则化降低斜率背后的直觉是什么?

数据挖掘 正则化
2022-02-21 15:47:34

在训练逻辑回归模型时,使用正则化可以帮助分配权重并避免对某些特定权重的依赖,从而使模型更加健壮。

例如:假设我的输入向量是 4 维的。输入值为 [1,1,1,1]。如果我的权重矩阵的值为 [1,0,0,0] 或 [0.25,0.25,0.25,0.25],则输出可以为 1。L2 范数会给出后面的权重矩阵(因为 pow(1, 2) > 4*pow(0.25,2) )。我直观地理解为什么 l2 正则化在这里是有益的。

但是在线性回归的情况下,l2 正则化会降低斜率。为什么减小斜率只会提供更好的性能,增加斜率也是一种选择吗?

4个回答

使用正则化和缩小参数,我们减少了估计的样本方差,并减少了拟合随机噪声的趋势。我们希望减少对噪音的拟合。我们不能增加斜率,因为我们不想减少过度拟合。

L2 不一定会减少特征的数量,而是通过降低系数值来减少每个特征对模型的幅度/影响。

当我们高估时,收缩会导致积极的影响,而当我们低估时,收缩会导致消极的影响。但是我们并没有平等地缩小每个人,如果估计值远离零,我们正在以一个更大的因素移动。

将所有斜率缩小到零将使它们中的一些更准确,而其中一些更不准确,但是您可以看到它如何使它们总体上更准确。

请参阅这篇关于 L1 和 L2 正则化的文章:- https://towardsdatascience.com/intuitions-on-l1-and-l2-regularisation-235f2db4c261

称为 Lasso 的 L1 和称为 Ridge 的 L2 本质上减少了梯度下降的学习过程(损失减少),以试图减少过度拟合。据我所知,只有 L1 具有降低效果较差的特征的系数的影响,而 L2 则没有。

关于这个话题有很多误解。

(satinder singh) 为什么减小坡度只会提供更好的性能,增加坡度也是一种选择吗?

减轻重量并不会带来更好的性能。在无限正则化的极限中,您得到的模型将是一个常数(如果您的权重总是乘以自变量)。模型的质量显然很差。正则化的目标是通过惩罚大权重来防止过拟合。

但是为什么大权重有问题呢?想象一下下面这组三点(0,0),(ε,1)(1,1). 如果您尝试拟合多项式y(xn)=w0+w1xn+w2xn2您将获得以下系数w0=0,w1=1+ε1, 和w2=ε1. 为了ε0系数会发散。如果您查看这三点,您会发现得到的解决方案只是过度拟合数据。这个例子表明,大权重是过度拟合的标志。

为了抵消这种影响,我们可以引入一个正则化项R(w)(为零w=0) 并构造正则化损失函数Ereg(w)=E(w)+λR(w). 为了λ0我们将获得原始的非正则化损失函数E(w). 为了λ正则化损失函数将由正则化项控制,该项被最小化w=0. 因此,对于无限正则化,您肯定会防止您的模型过度拟合。正则化的目标是确定一个最优的λoptimal这可以防止模型过度拟合训练数据(防止权重过大)并且仍然能够泛化到测试数据。

(vivek) 据我所知,只有 L1 具有降低较低有效特征的系数的影响,而不是 L2。

两个正则化L1L2将通过减少相关的权重来减少不太重要的特征。L1正则化能够将一些系数设置为0正是而L2通常会导致较小的权重,但不会精确0.

L2 正则化可以减少线性回归中的斜率(即系数的大小)。

基本思想是较大的系数不太可能泛化。正则化会增加与较大系数相关的成本。