机器算法验证 - 没有偏差的权重正则化 - 吾爱随笔录

没有偏差的权重正则化

机器算法验证机器学习神经网络深度学习正则化权重

2022-03-25 10:41:56

我正在使用 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 的《深度学习》一书来学习神经网络。在第 7.1 节中，它说：

...我们通常选择使用参数范数惩罚 Ω，它仅惩罚每一层仿射变换的权重，并使偏差不正则化。与权重相比，偏差通常需要更少的数据才能准确拟合。每个权重指定两个变量如何相互作用。很好地拟合重量需要在各种条件下观察这两个变量。每个偏差只控制一个变量......

我不明白为什么它说

每个权重指定两个变量如何相互作用

有人可以解释一下吗？有一些例子就完美了。

2个回答

这是我对这句话的理解。这是一种摇摆不定的论点，但仍然给出了一些直觉。让我们考虑一个简单的线性层：

y = W x + b

$y = Wx + b$

...或等效地：

y_{i} = x_{1} W_{i, 1} + . . . + x_{n} W_{i, n} + b_{i}

$y_i = x_{1}W_{i,1} + ... + x_{n}W_{i,n} + b_i$

如果我们专注于一个重量 $W_{i,j}$ ，它的值是通过观察两个变量来确定的 $(x_j, y_i)$ . 如果训练数据有 $N$ 行，只有 $N$ 对 $(x_j, y_i)$ ，其中有 $W_{i,j}$ 将学习正确的值。这是很大的灵活性，作者在这句话中总结了这一点：

很好地拟合重量需要在各种条件下观察这两个变量。

换句话说，训练行数 $N$ 必须非常大才能在没有正则化的情况下捕获正确的斜率。另一方面， $b_i$ 只影响 $y_i$ ，这基本上意味着可以从相同数量的示例中更好地估计其值 $N$ . 作者是这样说的：

这意味着我们不会通过使偏差不规则化来引起过多的方差。

最后，我们希望对具有“更多自由”的权重进行正则化，这就是为什么正则化 $W_{i,j}$ 比更有意义 $b_i$ .

在 ML 术语中，权重是真正回归变量的系数，而偏差是截距。此外，在回归语言交互中具有特定的含义，与引用的文本中使用的不同。

在您的文本中，变量如何交互意味着有一个函数可以转换输入 $x$ 进入输出：

a = f (b + w x)

$a=f(b+wx)$ 所以，重量

w

$w$ 指定变量如何

a

$a$ 和

x

$x$ 互动，使用本书的语言。现在，偏见

b

$b$ 只控制一个输出

a

$a$ . 换句话说，他们在说

x

$x$ 通过

w

$w$ 影响

a

$a$ ，尽管

b

$b$ 影响

a

$a$ 直接，它不需要另一个变量。

我不会过多关注这个论点。这对我来说太不稳定了。您需要了解的是，如果您设置所有权重 $w=0$ ，该模型仍然会起作用，因为 $b\ne 0$ ，它会导致您的图层仍然产生接近平均值的值。这不会是一个非常智能的预测，因为它不接受任何输入，但它会显示某种平均输出。如果你设置所有 $w=b=0$ 这不会很好，因为它会一直产生零。

其它你可能感兴趣的问题

上一篇这个地块有特定的名称吗？下一篇可视化模型拟合多维数据