我是 NN 的初学者,我对批量规范不了解的第一件事是以下两个步骤:
如果我们在第二步中更改分布,我不明白为什么第一步是必要的。有人可以解释一下吗?
我希望我正确地回答了你的问题...
它被称为“批量”归一化,因为我们执行此转换并仅针对整个训练集的子部分(批次)而不是整体计算统计信息。
第一步有助于减少网络的“内部协变量偏移”。在第二步中应用移位和缩放之前对层输入进行归一化,可以加快训练过程(参见BN 论文)。
这种规范化是有代价的,即它可以减少一个层可以提供的可能表示的数量。例如,sigmoid 的归一化输入受限于函数的线性状态。参见第三页的BN 论文。
第二步是解决这个问题。将值缩放和移动到非线性的“不仅仅是”线性域解决了表示问题,同时将内部协变量偏移保持在最小。