在我的神经网络上进行反向传播时,如何避免我的梯度下降算法陷入“局部最小值”陷阱?
有什么方法可以帮助我避免它吗?
有几种基本技术可以尝试将搜索移出局部最优的吸引力盆地。他们包括:
有关此类技术的更多详细信息以及有关何时以及如何使用它们的一些经验法则,请参阅 Sean Luke 的优秀(免费在线)书籍“元启发式原理”。