我一直在从这里阅读有关 Nesterov 动量的信息,它似乎比常规动量有了很好的改进,而且没有任何额外成本。
然而,真的是这样吗?是否存在常规动量比 Nesterov 动量表现更好的情况,或者 Nesterov 动量始终表现至少与常规动量一样好?
我一直在从这里阅读有关 Nesterov 动量的信息,它似乎比常规动量有了很好的改进,而且没有任何额外成本。
然而,真的是这样吗?是否存在常规动量比 Nesterov 动量表现更好的情况,或者 Nesterov 动量始终表现至少与常规动量一样好?
Goodfellow、Bengio 和 Courville的《深度学习》一书说(我的副本中的第 8.3.3 节,第 292 页)指出
不幸的是,在随机梯度的情况下,Nesterov 动量并没有提高收敛速度。
我不确定为什么会这样,但理论上的优势取决于凸问题,从这一点来看,听起来实际优势也确实如此——或者至少,它不适用于典型的神经网络环境。
也许它可以更有效地实现,但在我看来,您需要进行两次参数更新(以便在不移动两次的地方计算梯度),因此 Nesterov 比普通的 ole 动量需要更多的计算和内存.