机器算法验证 - 神经网络中偏置单元没有正则化项 - 吾爱随笔录

神经网络中偏置单元没有正则化项

机器算法验证机器学习神经网络偏见正则化

2022-02-02 09:24:01

根据this tutorial on deep learning，权重衰减（正则化）通常不适用于偏置项 b 为什么？

它背后的意义（直觉）是什么？

4个回答

过拟合通常要求模型的输出对输入数据的微小变化敏感（即，要精确地插值目标值，您往往需要在拟合函数中有很大的曲率）。偏差参数对模型的曲率没有贡献，因此对它们进行正则化通常也没什么意义。

L2（或 L1）背后的动机是，通过限制权重、约束网络，您不太可能过度拟合。限制偏差的权重没有什么意义，因为偏差是固定的（例如 b = 1），因此就像神经元截距一样工作，赋予更高的灵活性是有意义的。

我要补充一点，偏差项通常是用的平均值1而不是的来初始化的0，所以我们可能希望以一种不会离常数值太远的方式对其进行正则化，1例如 do1/2*(bias-1)^2而不是1/2*(bias)^2。

也许-1通过减去偏差的平均值来替换部分可能会有所帮助，也许是每层平均值或整体平均值。然而，这只是我正在做的一个假设（关于平均减法）。

这也完全取决于激活函数。例如：如果将偏差正则化为高常数偏移量，则 sigmoid 在这里可能不利于梯度消失。

权重决定了激活函数的斜率。正则化减少了权重，从而减少了激活函数的斜率。这减少了模型方差和过拟合效应。偏差对激活函数的斜率没有影响。但是，它们会影响激活函数在空间中的位置。它们的最佳值取决于权重，因此应将它们调整为正则化权重。应该在没有正则化的情况下调整偏差。它们的正则化可能是有害的。我考虑了随机 NN 中权重和偏差的函数，请参见此处

其它你可能感兴趣的问题

上一篇word2vec 中的负采样是如何工作的？下一篇您对研究生阶段应用统计学自学的书籍有什么建议吗？