谁发明了随机梯度下降?

机器算法验证 参考 梯度下降 历史 随机梯度下降
2022-02-05 13:23:53

我试图了解梯度下降随机梯度下降的历史。梯度下降法于 1847年在Cauchy发明。 Méthode générale pour la résolution des systèmes d'équations simultanéespp. 536–538 有关它的更多信息,请参见此处

从那时起,梯度下降方法不断发展,我不熟悉它们的历史。特别是我对随机梯度下降的发明很感兴趣。

可以在学术论文中使用的参考文献非常受欢迎。

2个回答

Robbins 和 Monro 在他们的论文A Stochastic Approximation Method中首次描述了 Stochastic Gradient Descent 之前的 Stochastic Approximation Kiefer 和 Wolfowitz 随后发表了他们的论文 * Stochastic Estimation of the Maximum of a Regression Function*正如 Mark Stone 在评论中指出的那样,这对于熟悉随机逼近的 ML 变体(即随机梯度下降)的人来说更容易识别。60 年代,沿着这条脉络进行了大量研究——Dvoretzky、Powell、Blum 都发表了我们今天认为理所当然的结果。从 Robbins 和 Monro 方法到 Kiefer Wolfowitz 方法是一个相对较小的飞跃,并且只是对问题进行重新构建,然后再到随机梯度下降(用于回归问题)。上述论文被广泛引用为随机梯度下降的前身,正如Nocedal、Bottou 和 Curtis的这篇评论论文中所提到的,该论文从机器学习的角度提供了一个简短的历史视角。

我相信 Kushner 和 Yin 在他们的《随机逼近和递归算法与应用》一书中指出,这个概念早在 40 年代就已用于控制理论,但我不记得他们是否对此有过引用,或者是否轶事,我也无法访问他们的书来确认这一点。

Herbert Robbins 和 Sutton Monro随机近似法 数理统计年鉴,卷。22, No. 3.(1951 年 9 月),第 400-407 页,DOI:10.1214/aoms/1177729586

J. Kiefer 和 J. Wolfowitz回归函数最大值的随机估计Ann。数学。统计学家。第 23 卷,第 3 期 (1952),462-466,DOI:10.1214/aoms/1177729392

Leon Bottou 和 Frank E. Curtis 和 Jorge Nocedal大规模机器学习的优化方法,技术报告,arXiv:1606.04838

Rosenblatt F. 感知器:大脑中信息存储和组织的概率模型。心理审查。1958 年 11 月;65(6):386。

我不确定在此之前是否在优化文献中发明了 SGD(可能是),但我相信他在这里描述了 SGD 用于训练感知器的应用。

如果系统处于正强化状态,则将正 AV 添加到“开启”响应的源集中所有活动 A 单元的值,而将负 AV 添加到源中的活动单元- 一组“关闭”响应。

他称这为“两种类型的强化”。

他还参考了一本关于这些“二价系统”的书。

Rosenblatt F. 感知器:认知系统中的统计可分离性理论(Project Para)。康奈尔航空实验室;1958 年。