没有偏差的权重正则化

机器算法验证 机器学习 神经网络 深度学习 正则化 权重
2022-03-25 10:41:56

我正在使用 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 的《深度学习》一书来学习神经网络。在第 7.1 节中,它说:

...我们通常选择使用参数范数惩罚 Ω,它仅惩罚每一层仿射变换的权重,并使偏差不正则化。与权重相比,偏差通常需要更少的数据才能准确拟合。每个权重指定两个变量如何相互作用。很好地拟合重量需要在各种条件下观察这两个变量。每个偏差只控制一个变量......

我不明白为什么它说

每个权重指定两个变量如何相互作用

有人可以解释一下吗?有一些例子就完美了。

2个回答

这是我对这句话的理解。这是一种摇摆不定的论点,但仍然给出了一些直觉。让我们考虑一个简单的线性层:

y=Wx+b

...或等效地:

yi=x1Wi,1+...+xnWi,n+bi

如果我们专注于一个重量Wi,j,它的值是通过观察两个变量来确定的(xj,yi). 如果训练数据有N行,只有N(xj,yi), 其中有Wi,j将学习正确的值。这是很大的灵活性,作者在这句话中总结了这一点:

很好地拟合重量需要在各种条件下观察这两个变量。

换句话说,训练行数N必须非常大才能在没有正则化的情况下捕获正确的斜率。另一方面,bi只影响yi,这基本上意味着可以从相同数量的示例中更好地估计其值N. 作者是这样说的:

这意味着我们不会通过使偏差不规则化来引起过多的方差。

最后,我们希望对具有“更多自由”的权重进行正则化,这就是为什么正则化Wi,j比更有意义bi.

在 ML 术语中,权重是真正回归变量的系数,而偏差是截距。此外,在回归语言交互中具有特定的含义,与引用的文本中使用的不同。

在您的文本中,变量如何交互意味着有一个函数可以转换输入x 进入输出:

a=f(b+wx)
所以,重量w 指定变量如何ax 互动,使用本书的语言。现在,偏见b控制一个输出a. 换句话说,他们在说x通过w影响a, 尽管b影响a直接,它不需要另一个变量。

我不会过多关注这个论点。这对我来说太不稳定了。您需要了解的是,如果您设置所有权重w=0,该模型仍然会起作用,因为b0,它会导致您的图层仍然产生接近平均值的值。这不会是一个非常智能的预测,因为它不接受任何输入,但它会显示某种平均输出。如果你设置所有w=b=0这不会很好,因为它会一直产生零。