据我了解,批量规范将所有输入特征归一化到一个层到一个单位正态分布,. 均值和方差通过测量当前小批量的值来估计。
归一化后,输入按标量值缩放和移位:
(如果我在这里错了,请纠正我 - 这是我开始有点不确定的地方。)
和是标量值,每个批次标准化层都有一对。它们与使用反向传播和 SGD 的权重一起学习。
我的问题是,这些参数不是多余的,因为输入可以通过层本身的权重以任何方式缩放和移动。换句话说,如果
和
然后
在哪里和.
那么添加它们的网络已经能够学习规模和转变有什么意义呢?还是我完全误解了事情?