了解正则化和对小权重的偏好

数据挖掘 神经网络
2022-02-23 03:32:50

最近在阅读更多关于神经网络的正则化时,这对我来说是一个困惑的地方。

我一直将权重视为衡量模型中特征重要性的指标。例如,冰淇淋销售模型从随机权重开始,最终学会增加与温度特征相关的权重。

通过正则化(L2,我最近一直在研究),模型更偏爱小权重。当我们试图防止模型过度拟合时,这对我来说很有意义。该模型可以很好地在不同的输入数据之间进行泛化,因为较小的权重使其相关特征对模型的影响较小。这将绘制出模型的真实模式,而不是一些可能会扭曲权重的情况。

现在我的困惑是,如果像温度这样的特征是我们模型中冰淇淋销售的一致预测指标,那么在正则化之后,它的相关权重会是什么样子?它们对成本函数的影响是否如此之大以至于模型不喜欢较小的权重?另外,人们通常如何为 lambda 设置值?

1个回答

当特征中存在多重共线性时,使用岭或 L2 正则化来防止过度拟合。这是一个示例:假设您想在以下数据集上训练线性回归模型:

  x1      x2      y
 1.0    -1.0      5
-1.0     1.0      5

训练线性回归模型,我们正在寻找具有以下格式的假设函数:

线性回归

正如你所看到的,这个问题有多种解决方案。例如 :

theta0 = 5, theta1 = 1 and theta2 = 1

但是,这个问题还有多种其他解决方案。包含 :

theta0 = 5, theta1 = 1000000 and theta2 = 1000000

现在假设您有一个新的观察结果,例如:

      x1      x2      y
 1.00001    -1.0      5

与具有大 theta 系数的解决方案相比,具有小 theta 系数的解决方案最有可能产生更好的结果。要理解 L2 正则化,我们必须了解多重共线性会产生不太稳健的解决方案,因为它可能会在成本函数表面上出现脊,从而导致不太好的解决方案。通过添加一个惩罚项,我们将平滑成本函数表面,使学习专注于小的 theta 系数:

在此处输入图像描述

因此,回到您的温度示例,岭回归将尽可能降低温度 theta 系数,以避免与其他特征潜在的多重共线性。通过添加 L2 正则化,如果您的特征中存在多重共线性,现在可以解决模型中的过度拟合问题。但是,如果您的正则化强度太大,您可能会迫使您的学习只关注较小的 theta 值,因此它可能会在您的模型中产生偏差,从而导致欠拟合。