机器算法验证 - 深度神经网络权重初始化 - 吾爱随笔录

机器算法验证机器学习神经网络深度学习

2022-03-29 07:02:50

鉴于困难的学习任务（例如高维、固有的数据复杂性），深度神经网络变得难以训练。为了缓解许多问题，可以：

我听说有一些聪明的方法可以初始化更好的权重。例如，您可以更好地选择震级：Glorot and Bengio (2010)

有没有更好的初始化权重的一致方法？

4个回答

据我所知，您给出的两个公式几乎是标准初始化。前段时间我做了一篇文献综述，请查看我的链接答案。

最近，为了这个唯一目的，引入了批量标准化。请在这里找到论文

论文“All you need is a good init”是一篇关于深度学习中的 init 的相对较新的好文章。我喜欢它的地方在于：

权重初始化取决于正在使用的激活函数。Xavier 和 Bengio (2010) 基于激活是线性的假设推导出了一种初始化权重的方法。他们的方法得出以下公式：

\begin{aligned} W ～ ü [- \frac{\sqrt{6}}{\sqrt{n_{一世} + n_{一世 + 1}}}, \frac{\sqrt{6}}{\sqrt{n_{一世} + n_{一世 + 1}}}] \end{aligned}

$\begin{align} W \sim U \left[ -\frac{\sqrt 6}{\sqrt {n_{i} + n_{i+1}}}, \frac{\sqrt 6}{\sqrt {n_{i} + n_{i+1}}} \right] \end{align}$

对于使用均匀分布初始化的权重，其中 $n_{i}$ 代表 $\text{fan in}$ 和 $n_{i+1}$ 代表 $\text{fan out}$ .

He, Kaiming, et al.(2015) 使用了一种推导方法，考虑使用 ReLUs 作为激活函数，得到一个权重初始化公式：

\begin{aligned} W_{l} ～ ñ (0, \sqrt{\frac{2}{n_{l}}}) . \end{aligned}

$\begin{align} W_l \sim \mathcal N \left({\Large 0}, \sqrt{\frac{2}{n_l}} \right). \end{align}$

对于使用高斯分布初始化的权重，其标准差 (std) 为 $\sqrt{\frac{2}{n_l}}$

在此处阅读更全面的系列文章，涵盖权重初始化背后的数学。

其它你可能感兴趣的问题