使用 Xavier 初始化时,我应该何时使用正态分布或均匀分布?

机器算法验证 正态分布 神经网络 均匀分布 权重
2022-02-07 18:45:50

Xavier 初始化现在似乎被广泛用于初始化神经网络中的连接权重,尤其是深度网络(请参阅什么是神经网络中好的初始权重?)。

Xavier Glorot 和 Yoshua Bengio原始论文建议使用之间的均匀分布来初始化权重r+rr=6nin+nout(在哪里ninnout是进出我们正在初始化的层的连接数),以确保方差等于σ2=2nin+nout. 这有助于确保输出的方差大致等于输入的方差,以避免梯度消失/爆炸问题。

一些库(例如Lasagne)似乎提供了使用正态分布的选项,均值为 0,方差相同。

有什么理由更喜欢均匀分布而不是正态分布(或相反)?TensorFlow 教程中的一些示例也使用截断的正态分布。

我的猜测是均匀分布保证权重不会很大(截断的正态分布也是如此)。或者也许它根本没有太大变化。

任何的想法?

0个回答
没有发现任何回复~