我试图了解梯度下降和随机梯度下降的历史。梯度下降法于 1847年在Cauchy发明。 Méthode générale pour la résolution des systèmes d'équations simultanées。pp. 536–538 有关它的更多信息,请参见此处。
从那时起,梯度下降方法不断发展,我不熟悉它们的历史。特别是我对随机梯度下降的发明很感兴趣。
可以在学术论文中使用的参考文献非常受欢迎。
我试图了解梯度下降和随机梯度下降的历史。梯度下降法于 1847年在Cauchy发明。 Méthode générale pour la résolution des systèmes d'équations simultanées。pp. 536–538 有关它的更多信息,请参见此处。
从那时起,梯度下降方法不断发展,我不熟悉它们的历史。特别是我对随机梯度下降的发明很感兴趣。
可以在学术论文中使用的参考文献非常受欢迎。
Robbins 和 Monro 在他们的论文A Stochastic Approximation Method中首次描述了 Stochastic Gradient Descent 之前的 Stochastic Approximation 。Kiefer 和 Wolfowitz 随后发表了他们的论文 * Stochastic Estimation of the Maximum of a Regression Function*正如 Mark Stone 在评论中指出的那样,这对于熟悉随机逼近的 ML 变体(即随机梯度下降)的人来说更容易识别。60 年代,沿着这条脉络进行了大量研究——Dvoretzky、Powell、Blum 都发表了我们今天认为理所当然的结果。从 Robbins 和 Monro 方法到 Kiefer Wolfowitz 方法是一个相对较小的飞跃,并且只是对问题进行重新构建,然后再到随机梯度下降(用于回归问题)。上述论文被广泛引用为随机梯度下降的前身,正如Nocedal、Bottou 和 Curtis的这篇评论论文中所提到的,该论文从机器学习的角度提供了一个简短的历史视角。
我相信 Kushner 和 Yin 在他们的《随机逼近和递归算法与应用》一书中指出,这个概念早在 40 年代就已用于控制理论,但我不记得他们是否对此有过引用,或者是否轶事,我也无法访问他们的书来确认这一点。
Herbert Robbins 和 Sutton Monro随机近似法 数理统计年鉴,卷。22, No. 3.(1951 年 9 月),第 400-407 页,DOI:10.1214/aoms/1177729586
J. Kiefer 和 J. Wolfowitz回归函数最大值的随机估计Ann。数学。统计学家。第 23 卷,第 3 期 (1952),462-466,DOI:10.1214/aoms/1177729392
Leon Bottou 和 Frank E. Curtis 和 Jorge Nocedal大规模机器学习的优化方法,技术报告,arXiv:1606.04838
看
Rosenblatt F. 感知器:大脑中信息存储和组织的概率模型。心理审查。1958 年 11 月;65(6):386。
我不确定在此之前是否在优化文献中发明了 SGD(可能是),但我相信他在这里描述了 SGD 用于训练感知器的应用。
如果系统处于正强化状态,则将正 AV 添加到“开启”响应的源集中所有活动 A 单元的值,而将负 AV 添加到源中的活动单元- 一组“关闭”响应。
他称这为“两种类型的强化”。
他还参考了一本关于这些“二价系统”的书。
Rosenblatt F. 感知器:认知系统中的统计可分离性理论(Project Para)。康奈尔航空实验室;1958 年。