正常的 Glorot 初始化从何而来?

数据挖掘 深度学习 神经网络 权重初始化
2022-03-01 11:15:15

著名的 Glorot 初始化首先在《理解训练深度前馈神经网络的难度》一文中进行了描述。在本文中,他们推导出以下统一初始化,参见。方程。(16) 在他们的论文中:

(16)WU[6nj+nj+1,6nj+nj+1].

如果我们看一下权重初始化的 PyTorch 文档,那么有两个Glorot (Xavier) 初始化,即torch.nn.init.xavier_uniform_(tensor, gain=1.0)torch.nn.init.xavier_normal_(tensor, gain=1.0)根据文档,后者的初始化由正态分布给出N(0,σ2),其中标准差由下式给出

σ=2nj+nj+1.

问题:

1.) 为什么我们有一个2代替6在正常 Glorot 初始化的标准差中?

2.) 正常的 Glorot 初始化从何而来?那么基本上,是否有上述论文的后续论文证明了普通 Glorot 与统一初始化相比的优越性?

谢谢!

0个回答
没有发现任何回复~