数据挖掘 - 使用正则化降低斜率背后的直觉是什么？ - 吾爱随笔录

使用正则化降低斜率背后的直觉是什么？

数据挖掘正则化

2022-02-21 15:47:34

在训练逻辑回归模型时，使用正则化可以帮助分配权重并避免对某些特定权重的依赖，从而使模型更加健壮。

例如：假设我的输入向量是 4 维的。输入值为 [1,1,1,1]。如果我的权重矩阵的值为 [1,0,0,0] 或 [0.25,0.25,0.25,0.25]，则输出可以为 1。L2 范数会给出后面的权重矩阵（因为 pow(1, 2) > 4*pow(0.25,2) ）。我直观地理解为什么 l2 正则化在这里是有益的。

但是在线性回归的情况下，l2 正则化会降低斜率。为什么减小斜率只会提供更好的性能，增加斜率也是一种选择吗？

4个回答

使用正则化和缩小参数，我们减少了估计的样本方差，并减少了拟合随机噪声的趋势。我们希望减少对噪音的拟合。我们不能增加斜率，因为我们不想减少过度拟合。

L2 不一定会减少特征的数量，而是通过降低系数值来减少每个特征对模型的幅度/影响。

当我们高估时，收缩会导致积极的影响，而当我们低估时，收缩会导致消极的影响。但是我们并没有平等地缩小每个人，如果估计值远离零，我们正在以一个更大的因素移动。

将所有斜率缩小到零将使它们中的一些更准确，而其中一些更不准确，但是您可以看到它如何使它们总体上更准确。

请参阅这篇关于 L1 和 L2 正则化的文章：- https://towardsdatascience.com/intuitions-on-l1-and-l2-regularisation-235f2db4c261

称为 Lasso 的 L1 和称为 Ridge 的 L2 本质上减少了梯度下降的学习过程（损失减少），以试图减少过度拟合。据我所知，只有 L1 具有降低效果较差的特征的系数的影响，而 L2 则没有。

关于这个话题有很多误解。

(satinder singh) 为什么减小坡度只会提供更好的性能，增加坡度也是一种选择吗？

减轻重量并不会带来更好的性能。在无限正则化的极限中，您得到的模型将是一个常数（如果您的权重总是乘以自变量）。模型的质量显然很差。正则化的目标是通过惩罚大权重来防止过拟合。

但是为什么大权重有问题呢？想象一下下面这组三点 $(0,0)$ , $(\varepsilon,1)$ 和 $(1, 1)$ . 如果您尝试拟合多项式 $y(x_n)=w_0 + w_1x_n + w_2 x_n^2$ 您将获得以下系数 $w_0=0$ , $w_1=1+\varepsilon^{-1}$ ，和 $w_2=-\varepsilon^{-1}$ . 为了 $\varepsilon \to 0$ 系数会发散。如果您查看这三点，您会发现得到的解决方案只是过度拟合数据。这个例子表明，大权重是过度拟合的标志。

为了抵消这种影响，我们可以引入一个正则化项 $R(\mathbf{w})$ （为零 $\mathbf{w}=\mathbf{0}$ ) 并构造正则化损失函数 $E_\text{reg}(\mathbf{w}) = E(\mathbf{w}) + \lambda R(\mathbf{w})$ . 为了 $\lambda \to 0$ 我们将获得原始的非正则化损失函数 $E(\mathbf{w})$ . 为了 $\lambda \to \infty$ 正则化损失函数将由正则化项控制，该项被最小化 $\mathbf{w}=\mathbf{0}$ . 因此，对于无限正则化，您肯定会防止您的模型过度拟合。正则化的目标是确定一个最优的 $\lambda_\text{optimal}$ 这可以防止模型过度拟合训练数据（防止权重过大）并且仍然能够泛化到测试数据。

(vivek) 据我所知，只有 L1 具有降低较低有效特征的系数的影响，而不是 L2。

两个正则化 $\mathcal{L}_1$ 和 $\mathcal{L}_2$ 将通过减少相关的权重来减少不太重要的特征。 $\mathcal{L}_1$ 正则化能够将一些系数设置为 $0$ 正是而 $\mathcal{L}_2$ 通常会导致较小的权重，但不会精确 $0$ .

L2 正则化可以减少线性回归中的斜率（即系数的大小）。

基本思想是较大的系数不太可能泛化。正则化会增加与较大系数相关的成本。

其它你可能感兴趣的问题

上一篇使用 word2vec 的语义网络下一篇我如何判断我的模型是否从预测概率的分布中过度拟合？