数据挖掘 - Ioffe & Szegedy 如何获得方程∂BN ( (一个W）你）∂你=∂BN ( W你)你∂BN((aW)u)∂u=∂BN(Wu)u? - 吾爱随笔录

\frac{\partial BN ((a W) u)}{\partial u} = \frac{\partial BN (W u)}{u}

$\frac{\partial \text{BN}((aW)u)}{\partial u} = \frac{\partial\text{BN}(Wu)}{u}$

这里连接到下一个批量归一化层的权重矩阵，因此结论是按常数缩放权重不会影响这个偏导数。 $W$ $u$

这对我来说似乎是错误的。设是某个输出神经元的值，而是上一层的值，因此： $b$ $u$

b = \sum w_{i} u_{i}

$b=\sum w_iu_i$

现在让成为 b 的批量标准化： $\hat b$ $b$

\hat{b} = b - \frac{1}{N} \sum b^{i}

$\hat b = b - \frac1N\sum b^i$

其中，表示批次中第个训练输入的神经元我们有 $b^i$ $b$ $i$

\hat{b} = \sum w_{i} u_{i} - \frac{1}{N} \sum_{j} b^{j} = \sum w_{i} u_{i} - \frac{1}{N} \sum_{j} (\sum_{i} w_{j} u_{j}^{i})

$\hat b = \sum w_iu_i - \frac1N\sum_j b^j= \sum w_iu_i - \frac 1N\sum_j (\sum_i w_ju_j^i)$

由于值从未出现在第二个总和中，我们只需 $u_i$

\partial_{u_{i}} \hat{b} = w_{i}

$\partial_{u_i} \hat b = w_i$

这与非常相关。我犯了错误，还是误解了原始方程式？ $W$