在介绍 Batch Normalization 的论文中,在第 5 页,作者写了方程
这里连接到下一个批量归一化层的权重矩阵,因此结论是按常数缩放权重不会影响这个偏导数。
这对我来说似乎是错误的。设是某个输出神经元的值,而是上一层的值,因此:
现在让成为 b 的批量标准化:
其中,表示批次中第个训练输入的神经元我们有
由于值从未出现在第二个总和中,我们只需
这与非常相关。我犯了错误,还是误解了原始方程式?
在介绍 Batch Normalization 的论文中,在第 5 页,作者写了方程
这里连接到下一个批量归一化层的权重矩阵,因此结论是按常数缩放权重不会影响这个偏导数。
这对我来说似乎是错误的。设是某个输出神经元的值,而是上一层的值,因此:
现在让成为 b 的批量标准化:
其中,表示批次中第个训练输入的神经元我们有
由于值从未出现在第二个总和中,我们只需
这与非常相关。我犯了错误,还是误解了原始方程式?