神经网络中偏置单元没有正则化项

机器算法验证 机器学习 神经网络 偏见 正则化
2022-02-02 09:24:01

根据this tutorial on deep learning,权重衰减(正则化)通常不适用于偏置项 b 为什么?

它背后的意义(直觉)是什么?

4个回答

过拟合通常要求模型的输出对输入数据的微小变化敏感(即,要精确地插值目标值,您往往需要在拟合函数中有很大的曲率)。偏差参数对模型的曲率没有贡献,因此对它们进行正则化通常也没什么意义。

L2(或 L1)背后的动机是,通过限制权重、约束网络,您不太可能过度拟合。限制偏差的权重没有什么意义,因为偏差是固定的(例如 b = 1),因此就像神经元截距一样工作,赋予更高的灵活性是有意义的。

我要补充一点,偏差项通常是用 的平均值1而不是 的来初始化的0,所以我们可能希望以一种不会离常数值太远的方式对其进行正则化,1例如 do1/2*(bias-1)^2而不是1/2*(bias)^2

也许-1通过减去偏差的平均值来替换部分可能会有所帮助,也许是每层平均值或整体平均值。然而,这只是我正在做的一个假设(关于平均减法)。

这也完全取决于激活函数。例如:如果将偏差正则化为高常数偏移量,则 sigmoid 在这里可能不利于梯度消失。

权重决定了激活函数的斜率。正则化减少了权重,从而减少了激活函数的斜率。这减少了模型方差和过拟合效应。偏差对激活函数的斜率没有影响。但是,它们会影响激活函数在空间中的位置。它们的最佳值取决于权重,因此应将它们调整为正则化权重。应该在没有正则化的情况下调整偏差。它们的正则化可能是有害的。我考虑了随机 NN 中权重和偏差的函数,请参见此处