为了定义什么是深度学习,在主流软件库和文献中,学习部分通常与反向传播一起列为要求而没有替代方案。在深度学习或一般统计学习中没有提到很多无梯度优化。同样,在“经典算法”(非线性最小二乘法)中涉及导数 [1]。一般来说,深度学习或经典算法中的无梯度学习并不是主流。一种有希望的替代方案是模拟退火 [2, 3],即所谓的“自然启发优化”。
为什么无梯度深度学习(统计学习)不在主流中,是否有任何内在的理论原因?(或者不是首选?)
笔记
[1] 如列文伯格-马夸特
[2]深度学习的模拟退火算法(2015)
[3] CoolMomentum: a method for stochastic optimization by Langevin dynamics with simulation annealing (2021) 虽然这仍然不是完全无梯度的,但不需要自动微分。
编辑 1使用Ensemble Kalman Filter的 附加参考,显示了一种无导数的方法:
- 集成卡尔曼反演:机器学习任务的无导数技术arXiv:1808.03620。
- 集成卡尔曼滤波器优化深度神经网络:非性能梯度下降弹簧的另一种方法(手稿-pdf)
编辑 2 据我所知,Yann LeCun 并不认为无梯度学习是深度学习生态系统的一部分。“DL 正在构建参数化功能模块的网络,并使用基于梯度的优化从示例中对其进行训练。” 鸣叫
编辑 3 Ben Bolker 对局部几何的评论绝对值得成为答案之一。