最近我读了 Yann Dauphin 等人的一篇论文。识别和解决高维非凸优化中的鞍点问题,他们在其中引入了一种有趣的下降算法,称为无鞍牛顿,该算法似乎完全为神经网络优化量身定制,不应该卡在鞍点上像 vanilla SGD 这样的一阶方法。
这篇论文可以追溯到 2014 年,所以它并不是什么新鲜事物,但是,我还没有看到它被“在野外”使用。为什么不使用这种方法?Hessian 计算对于现实世界规模的问题/网络来说是否过于苛刻?这个算法是否有一些开源实现,可能与一些主要的深度学习框架一起使用?
2019 年 2 月更新:现在有一个可用的实现:https ://github.com/dave-fernandes/SaddleFreeOptimizer )