为什么具有大值的权重会导致神经网络过度拟合,因此我们使用正则化等方法来中和具有大值的权重?
为什么神经网络中禁止使用大权重?
数据挖掘
机器学习
神经网络
2021-10-09 05:29:06
2个回答
机器学习中使用的许多策略都明确设计为减少测试错误,可能以增加训练错误为代价。通常, 正则化是我们对学习算法所做的任何修改,旨在减少其泛化误差,而不是训练误差。
通常称为权重衰减的L2 参数范数惩罚是最简单和最常见的正则化技术之一,它通过添加参数范数来强制权重变小对目标函数的惩罚。例如,在线性回归中,这为我们提供了斜率较小的解决方案,或者将权重放在较少的特征上。换句话说,尽管该模型能够表示具有更复杂形状的函数,但权重衰减鼓励它使用由更小的系数描述的更简单的函数。
直观地说,在特征空间中,只有参数对减小目标函数有显着贡献的方向才能相对完整地保留下来。在对减少目标函数没有贡献的方向上,在这个方向上的移动不会显着增加梯度。因此,通过在整个训练过程中使用正则化,对应于这些不重要方向的权重向量的分量会被衰减掉。
另一个简单的解释是当你的权重很大时,它们对输入数据中的小噪声更敏感。因此,当一个小噪声通过具有大权重的网络传播时,它会在 NN 的输出层而不是具有小权重的网络中产生大不相同的值。
请注意,权重衰减不是唯一的正则化技术。在过去的几年里,已经引入了一些其他方法,例如Dropout、Bagging、Early Stop和Parameter Sharing,它们在 NN 中运行良好。
在这个非常丰富的章节中还有其他有趣的发现。
较大的权重可能与输入数据 (x) 中的某些模式相关,这意味着模型几乎对某些值进行硬编码。这使得我们的训练数据拟合得很好,但我们的测试数据拟合得不太好。
您也可以使用dropout
.