机器算法验证 - 随机梯度下降的 Adam 方法如何工作？ - 吾爱随笔录

随机梯度下降的 Adam 方法如何工作？

机器算法验证神经网络优化梯度下降亚当

2022-01-24 10:09:20

我熟悉用于训练神经网络的基本梯度下降算法。我已经阅读了提议 Adam: ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION的论文。

虽然我肯定有一些见解（至少），但总体而言，这篇论文对我来说似乎太高了。例如，成本函数 $J(\theta)$ 通常是许多不同函数的总和，因此必须进行大量计算以优化其值；随机梯度下降 - 据我了解的主题 - 仅为这些函数的子集计算优化。对我来说，不清楚 Adam 是如何做到这一点的，以及为什么这会导致整个训练错误的减少 $J(\theta)$ .

我认为 Adam 通过考虑之前的梯度来更新它的梯度。他们称之为利用动量？这种势头究竟是什么？根据论文第二页的算法，它是某种移动平均线，比如对“规则”梯度的第一和第二时刻的一些估计？

实际上，我怀疑 Adam 可以让人们使用更大的有效步长来降低梯度，从而降低训练误差与随机近似的结合。因此，生成的更新向量应该在空间维度上“跳跃”更多，而不是像普通梯度下降算法那样描述一些曲线。

有人可以解开亚当如何工作的神秘面纱吗？尤其是它是如何收敛的，特别是为什么亚当的方法有效以及究竟有什么好处？

1个回答

Adam 论文说：“......许多目标函数由在不同数据子样本处评估的子函数的总和组成；在这种情况下，可以通过对各个子函数采取梯度步骤来提高优化效率......”在这里，他们只是意味着目标函数是训练样例误差的总和，训练可以在单个样例或小批量上进行。这与随机梯度下降 (SGD) 中的相同，因为参数更新更频繁，所以它比批量训练更有效地解决大规模问题。

至于亚当为什么工作，它使用了一些技巧。

这些技巧之一是动量，它可以提供更快的收敛速度。想象一个目标函数，它的形状像一个狭长的峡谷，逐渐向最小值倾斜。假设我们想使用梯度下降来最小化这个函数。如果我们从峡谷壁上的某个点开始，负梯度将指向下降最陡的方向，即主要朝向峡谷底部。这是因为峡谷壁比峡谷逐渐向最小值倾斜的坡度要陡峭得多。如果学习率（即步长）很小，我们可以下降到峡谷底部，然后沿着它向最小值移动。但是，进展会很慢。我们可以提高学习率，但这不会改变步骤的方向。在这种情况下，我们会越过峡谷底部并最终落到对面的墙上。然后，我们将重复这种模式，在墙壁之间摆动，同时缓慢地向最小值前进。在这种情况下，动量可以提供帮助。

动量只是意味着将先前更新的一部分添加到当前更新中，以便在特定方向复合重复更新；我们积聚动力，朝着这个方向越来越快地前进。在峡谷的情况下，我们会在最小值的方向上建立动量，因为所有更新都在那个方向上有一个分量。相比之下，在峡谷壁上来回移动需要不断地反转方向，因此动量将有助于抑制这些方向的振荡。

Adam 使用的另一个技巧是为每个参数自适应地选择一个单独的学习率。通常接收较小或较不频繁更新的参数使用 Adam 接收较大的更新（反之亦然）。在适当的学习率因参数而异的情况下，这可以加快学习速度。例如，在深度网络中，梯度在早期层会变小，因此增加相应参数的学习率是有意义的。这种方法的另一个好处是，因为学习率是自动调整的，手动调整变得不那么重要了。标准 SGD 需要对学习率进行仔细调整（可能还有在线调整），但对于 Adam 和相关方法而言，情况并非如此。仍然需要选择超参数，

相关方法：

Momentum 通常与标准 SGD 一起使用。改进的版本称为 Nesterov 动量或 Nesterov 加速梯度。对每个参数使用自动调整学习率的其他方法包括：Adagrad、RMSprop 和 Adadelta。RMSprop 和 Adadelta 解决了 Adagrad 可能导致学习停止的问题。Adam 类似于具有动量的 RMSprop。Nadam 修改 Adam 以使用 Nesterov 动量而不是经典动量。

参考资料：

金马和巴（2014）。亚当：一种随机优化方法。

古德费罗等人。（2016 年）。深度学习，第 8 章。

Geoff Hinton 课程的幻灯片

多扎特（2016 年）。将 Nesterov Momentum 融入 Adam。

其它你可能感兴趣的问题

上一篇如何使时间序列平稳？下一篇AIC,BIC,CIC,DIC,EIC,FIC,GIC,HIC,IIC --- 我可以互换使用它们吗？