数据挖掘 - 为什么优化算法在关键点较慢？ - 吾爱随笔录

我刚刚从 Alec Radford 的演示文稿中找到了下面的动画：

可见，所有算法在鞍点（导数为 0）处都会大大减慢，一旦退出，就会加速。常规 SGD 本身只是卡在鞍点上。

为什么会这样？不就是依赖于学习率的“运动速度”恒定值吗？

例如，常规 SGD 算法中每个点的权重为：

w_{t + 1} = w_{t} - v * \frac{\partial L}{\partial w}

$w_{t+1}=w_t-v*\frac{\partial L}{\partial w}$

其中是学习率，是损失函数。 $v$ $L$

简而言之，即使步长是恒定值，为什么所有优化算法都会被鞍点减慢？移动速度不应该始终相同吗？