批量规范:为什么要进行初始规范化?

数据挖掘 神经网络 梯度下降 批量标准化
2022-02-17 03:29:35

我是 NN 的初学者,我对批量规范不了解的第一件事是以下两个步骤:

  • 首先我们将 az 参数上的批数据归一化为 Mu=0, sigma^2=1
  • 然后我们通过 Mu, sigma^2 (usu. alpha, beta) 的系数来改变 z,将它们更新为可学习的参数。

如果我们在第二步中更改分布,我不明白为什么第一步是必要的。有人可以解释一下吗?

2个回答

图片说明了一切

我希望我正确地回答了你的问题...

它被称为“批量”归一化,因为我们执行此转换并仅针对整个训练集的子部分(批次)而不是整体计算统计信息。

第一步有助于减少网络的“内部协变量偏移”。在第二步中应用移位和缩放之前对层输入进行归一化,可以加快训练过程(参见BN 论文)。

这种规范化是有代价的,即它可以减少一个层可以提供的可能表示的数量。例如,sigmoid 的归一化输入受限于函数的线性状态。参见第三页的BN 论文。

第二步是解决这个问题。将值缩放和移动到非线性的“不仅仅是”线性域解决了表示问题,同时将内部协变量偏移保持在最小。