不同的学习率收敛到相同的最小值

数据挖掘 优化 梯度下降
2021-10-14 01:13:03

我正在使用梯度下降法优化一些损失函数。我正在尝试不同的学习率,但目标函数的值正在收敛到相同的精确点。

这是否意味着我陷入了局部最小值?因为损失函数是非凸的,所以我不太可能收敛到全局最小值。

2个回答

这是预期的行为。如果您从同一位置开始,不同的学习率应该收敛到相同的最小值。

如果您正在优化神经网络并且想要探索损失曲面,请随机化起始参数如果你总是从相同的初始值开始优化算法,你将达到相同的局部极值,除非你真的增加步长和超调。

正如您所说,您主要被困在局部最小值。按照上面的建议更改参数并尝试。太大的学习率会阻碍收敛并导致损失函数在最小值附近波动甚至发散。

根据Micheal A.Nielson,“神经网络和深度学习,Determination Press,2015

在此处输入图像描述

这可能无法按建议工作。随机化是一个很好的尝试。是一本好书。