自从我编写任何类型的梯度下降算法以将函数驱动为零(或最小值)以来,已经有几十年了。我正在关注本教程,它可以最大限度地减少. 除了一件事,这一切似乎都很简单。沿任意维度的步长与梯度成正比.
沿维度没有更陡峭的梯度意味着你应该采取更小的步长,因为变化迅速?
自从我编写任何类型的梯度下降算法以将函数驱动为零(或最小值)以来,已经有几十年了。我正在关注本教程,它可以最大限度地减少. 除了一件事,这一切似乎都很简单。沿任意维度的步长与梯度成正比.
沿维度没有更陡峭的梯度意味着你应该采取更小的步长,因为变化迅速?
你想要“下坡”——沿着坡度下降最快的方向。从轴的角度考虑,下降的相对速度将分别与该导数成正比。
也就是说,没有这本书是对的。
你朝那个方向走多远是一个稍微不同的问题。
[但是,如果最小值几乎是二次的,那么您实际上确实希望具有与导数成比例的绝对步长(因为斜率越陡,离最小值越远,其他条件相同)。但是,这种考虑通常不适用于梯度下降。]