人工智能 - 是否有理由为神经网络选择常规动量而不是 Nesterov 动量？ - 吾爱随笔录

人工智能神经网络比较目标函数梯度下降超参数优化

2021-11-06 10:14:15

我一直在从这里阅读有关 Nesterov 动量的信息，它似乎比常规动量有了很好的改进，而且没有任何额外成本。

然而，真的是这样吗？是否存在常规动量比 Nesterov 动量表现更好的情况，或者 Nesterov 动量始终表现至少与常规动量一样好？

1个回答

Goodfellow、Bengio 和 Courville的《深度学习》一书说（我的副本中的第 8.3.3 节，第 292 页）指出

不幸的是，在随机梯度的情况下，Nesterov 动量并没有提高收敛速度。

我不确定为什么会这样，但理论上的优势取决于凸问题，从这一点来看，听起来实际优势也确实如此——或者至少，它不适用于典型的神经网络环境。

也许它可以更有效地实现，但在我看来，您需要进行两次参数更新（以便在不移动两次的地方计算梯度），因此 Nesterov 比普通的 ole 动量需要更多的计算和内存.

其它你可能感兴趣的问题