Xavier 初始化的数学

数据挖掘 深度学习 神经网络 统计数据 数学
2021-10-03 22:03:36

我读的论文是Glorot et al (2010)数学部分在第 4.2.1 节。公式 (5) 和 (10) 对我来说很有意义,但我自己无法从 (2) 和 (3) 推导出公式 (6) 和 (7)。

我发现网上很多教程都使用了这个公式

一个r[X]=一个r[X]一个r[]+([X])2一个r[]+一个r[X]([])2
这需要 X 和 Y 之间的独立性。

但是在公式(2)和(3)中,梯度并不独立于 W 和 Z,因为它们都通过最后一层的输出相互关联。

如果有人能给我公式(6)和(7)的推导,我将不胜感激。提前致谢。

0个回答
没有发现任何回复~