我读到梯度下降总是收敛到局部最小值,而其他方法如牛顿法则不能保证(如果 Hessian 不是肯定的);但是如果 GD 中的起点不幸地是局部最大值(然后导数为零),我们怎么能说它收敛到最小值呢?它不失速吗?
梯度下降和局部最大值
机器算法验证
机器学习
优化
梯度下降
坡度
黑森州
2022-04-08 03:45:04
1个回答
如果梯度下降以这样一种方式初始化,即它从梯度为零的局部最大值(或鞍点或局部最小值)开始,那么它将简单地停留在那里。GD 的变体,例如 Stochastic GD 和 Mini-batch GD 试图通过在搜索中添加随机元素来解决这个问题,但如果梯度的形状足够奇怪,即使是那些也不能保证逃脱零梯度区域.
实际上,解决此问题的唯一方法是使用从搜索空间的全新区域开始的新权重或参数重新初始化搜索。这并不难做到,因为如果你确实卡在这样一个零梯度区域,你会很快注意到你的训练中的错误根本没有改变,你会知道你需要重新开始.