Xavier 初始化现在似乎被广泛用于初始化神经网络中的连接权重,尤其是深度网络(请参阅什么是神经网络中好的初始权重?)。
Xavier Glorot 和 Yoshua Bengio的原始论文建议使用之间的均匀分布来初始化权重和和(在哪里和是进出我们正在初始化的层的连接数),以确保方差等于. 这有助于确保输出的方差大致等于输入的方差,以避免梯度消失/爆炸问题。
一些库(例如Lasagne)似乎提供了使用正态分布的选项,均值为 0,方差相同。
有什么理由更喜欢均匀分布而不是正态分布(或相反)?TensorFlow 教程中的一些示例也使用截断的正态分布。
我的猜测是均匀分布保证权重不会很大(截断的正态分布也是如此)。或者也许它根本没有太大变化。
任何的想法?