数据挖掘 - 了解正则化和对小权重的偏好 - 吾爱随笔录

了解正则化和对小权重的偏好

数据挖掘神经网络

2022-02-23 03:32:50

最近在阅读更多关于神经网络的正则化时，这对我来说是一个困惑的地方。

我一直将权重视为衡量模型中特征重要性的指标。例如，冰淇淋销售模型从随机权重开始，最终学会增加与温度特征相关的权重。

通过正则化（L2，我最近一直在研究），模型更偏爱小权重。当我们试图防止模型过度拟合时，这对我来说很有意义。该模型可以很好地在不同的输入数据之间进行泛化，因为较小的权重使其相关特征对模型的影响较小。这将绘制出模型的真实模式，而不是一些可能会扭曲权重的情况。

现在我的困惑是，如果像温度这样的特征是我们模型中冰淇淋销售的一致预测指标，那么在正则化之后，它的相关权重会是什么样子？它们对成本函数的影响是否如此之大以至于模型不喜欢较小的权重？另外，人们通常如何为 lambda 设置值？

1个回答

当特征中存在多重共线性时，使用岭或 L2 正则化来防止过度拟合。这是一个示例：假设您想在以下数据集上训练线性回归模型：

  x1      x2      y
 1.0    -1.0      5
-1.0     1.0      5

训练线性回归模型，我们正在寻找具有以下格式的假设函数：

正如你所看到的，这个问题有多种解决方案。例如：

theta0 = 5, theta1 = 1 and theta2 = 1

但是，这个问题还有多种其他解决方案。包含：

theta0 = 5, theta1 = 1000000 and theta2 = 1000000

现在假设您有一个新的观察结果，例如：

      x1      x2      y
 1.00001    -1.0      5

与具有大 theta 系数的解决方案相比，具有小 theta 系数的解决方案最有可能产生更好的结果。要理解 L2 正则化，我们必须了解多重共线性会产生不太稳健的解决方案，因为它可能会在成本函数表面上出现脊，从而导致不太好的解决方案。通过添加一个惩罚项，我们将平滑成本函数表面，使学习专注于小的 theta 系数：

因此，回到您的温度示例，岭回归将尽可能降低温度 theta 系数，以避免与其他特征潜在的多重共线性。通过添加 L2 正则化，如果您的特征中存在多重共线性，现在可以解决模型中的过度拟合问题。但是，如果您的正则化强度太大，您可能会迫使您的学习只关注较小的 theta 值，因此它可能会在您的模型中产生偏差，从而导致欠拟合。

其它你可能感兴趣的问题

上一篇我应该在循环之前启动大小并在 Python 中追加吗下一篇用R中数据框的多列中的数字替换单词