我读的论文是Glorot et al (2010)。数学部分在第 4.2.1 节。公式 (5) 和 (10) 对我来说很有意义,但我自己无法从 (2) 和 (3) 推导出公式 (6) 和 (7)。
我发现网上很多教程都使用了这个公式
这需要 X 和 Y 之间的独立性。
但是在公式(2)和(3)中,梯度并不独立于 W 和 Z,因为它们都通过最后一层的输出相互关联。
如果有人能给我公式(6)和(7)的推导,我将不胜感激。提前致谢。
我读的论文是Glorot et al (2010)。数学部分在第 4.2.1 节。公式 (5) 和 (10) 对我来说很有意义,但我自己无法从 (2) 和 (3) 推导出公式 (6) 和 (7)。
我发现网上很多教程都使用了这个公式
但是在公式(2)和(3)中,梯度并不独立于 W 和 Z,因为它们都通过最后一层的输出相互关联。
如果有人能给我公式(6)和(7)的推导,我将不胜感激。提前致谢。