人工智能 - 为什么用高斯分布除以一层中神经元数量的平方根来初始化权重如此普遍？ - 吾爱随笔录

为什么用高斯分布除以一层中神经元数量的平方根来初始化权重如此普遍？

人工智能神经网络

2021-11-11 07:57:24

我在几个 jupyter 笔记本中看到人们使用以下方法初始化 NN 权重：

np.random.randn(D, M) / np.sqrt(D)

其他时候他们只是这样做：

np.random.randn(D, M)

将高斯分布除以层中神经元数量的平方根有什么好处？

谢谢

1个回答

我认为他们使用 Xavier/Glorot 的初始化方法。您可以从原始论文中阅读：

我们将偏差初始化为 0，权重 $W_{ij}$ 在每一层使用以下常用的启发式方法：

$W_{ij} \sim U [ -\frac{1}{\sqrt{n}}, \frac{1}{\sqrt{n}}]$

在哪里 $U[−a, a]$ 是区间内的均匀分布 $(−a, a)$ 和 $n$ 是前一层的大小（的列数 $W$ )

有些人使用它，因为一些报告说这种初始化方法会导致更好的结果

其它你可能感兴趣的问题

上一篇我可以使用哪个 API 来跟踪动物在一张或多张图像中的位置？下一篇如何对单个单词进行语音识别