Ioffe & Szegedy 如何获得方程∂BN ( (一个W)你)∂你=∂BN ( W你)你∂BN((aW)u)∂u=∂BN(Wu)u?

数据挖掘 深度学习
2022-02-17 14:31:56

介绍 Batch Normalization 的论文中,在第 5 页,作者写了方程

BN((aW)u)u=BN(Wu)u

这里连接到下一个批量归一化层的权重矩阵,因此结论是按常数缩放权重不会影响这个偏导数。Wu

这对我来说似乎是错误的。是某个输出神经元的值,而是上一层的值,因此:bu

b=wiui

现在让成为 b 的批量标准化b^b

b^=b1Nbi

其中,表示批次中第个训练输入的神经元我们有bibi

b^=wiui1Njbj=wiui1Nj(iwjuji)

由于值从未出现在第二个总和中,我们只需ui

uib^=wi

这与非常相关。我犯了错误,还是误解了原始方程式?W

0个回答
没有发现任何回复~