数据挖掘 - SGD 与 Adam 优化说明 - 吾爱随笔录

数据挖掘神经网络优化

2021-09-17 21:14:19

阅读亚当的论文，我需要一些澄清。

它指出 SGD 优化以相同的学习率更新参数（即在整个训练过程中不会改变）。他们说 Adam 是不同的，因为学习率是可变的（自适应的），并且可以在训练期间改变。

这是为什么 Adam 的表现（在大多数情况下）优于 SGD 的主要区别吗？此外，它说它在计算上更便宜，怎么能说它看起来比 SGD 更复杂呢？

我希望我的问题很清楚！

1个回答

在我见过的许多应用中（例如 GAN） $\beta_1$ 设定为 $0$ ，所以 $m_1=g_1$ ，即更新规则的分子与SGD中的相同。这留下了两个主要区别，都与第二时刻的 MA 有关：

$v_t:$ 二阶矩的原始 MA 用作梯度归一化器，将梯度除以梯度平方的移动平均值的平方根
$1-\beta_2$ . 为了减少偏见， $\sqrt{v_t}$ 也被划分为 $\sqrt{1-\beta_2^t}$ . 这遵循梯度平方期望的推导， $\mathbf{E}[\big(\frac{\partial E}{\partial w_t}\big)^2]$ 在文章的第 3 节。本质上 $\mathbf{E}v_t = (1-\beta^t_2)\mathbf{E}[\big(\frac{\partial E}{\partial w_t}\big)^2] + \varepsilon,$ 因此表达。在培训初期，MA 接近 $0$ , 并除以 $\sqrt{1-\beta_2}$ 帮助远离它。

在概率和统计中，矩是指形式的非中心表达式 $\mathbf{E}X^k$ ，移动平均线估计，因此得名。归一化允许梯度调整，因此，更好的参数更新

其它你可能感兴趣的问题