哪部作品最初引入了渐变剪裁?

人工智能 参考请求 文件 历史 爆炸梯度问题
2021-11-15 11:06:02

深度学习本书提到它已经使用了多年,但它提到的最古老的来源是 2012 年:

从业者多年来一直在使用一种简单的解决方案:剪裁渐变。这个想法有不同的例子(Mikolov, 2012; Pascanu et al., 2013)。一种选择是在参数更新之前从小批量元素中裁剪参数梯度(Mikolov,2012)。另一种是剪辑||g||梯度的g(Pascanu et al., 2013) 就在参数更新之前

但我很难相信渐变剪裁的首次使用和提及是从 2012 年开始的。有人知道解决方案的起源吗?

1个回答

简答

Tomas Mikolov 在 2012 年博士论文的一个段落中提到了渐变剪裁,这是文献中的第一次出现。

长答案

深度学习书中的第一个来源(Mikolov,2012)是 Mikolov 的博士论文,可以在这里找到。第 3.2.2 节的末尾是讨论梯度裁剪的地方,只是它被称为turncating

... 爆炸梯度问题已在 [4] 中进行了描述。

梯度爆炸问题的一个简单解决方案是截断梯度值。在我的实验中,我确实将隐藏神经元中累积的误差梯度的最大大小限制在 < -15 的范围内;15 >。这大大提高了训练的稳定性,否则不可能在大型数据集上成功训练 RNN LM。
...
[4] Y. Bengio、P. Simard、P. Frasconi。使用梯度下降学习长期依赖是很困难的。IEEE Transactions on Neural Networks, 5, 157-166, 1994。

对参考论文[4]的搜索表明,它确实描述了 Mikolov 所说的问题,但并未将梯度裁剪作为解决方案。

所以我看了一下深度学习提到的第二个来源:关于训练递归神经网络的难度它直接引用了 Mikolov 提出的剪辑建议:

我们将对 Tomas Mikolov 在他的博士论文 (Mikolov, 2012) 中提出的方法做最后的说明(并隐含地用于语言建模的最新成果中 (Mikolov et al., 2011))。它涉及按元素裁剪梯度的时间分量(当条目的绝对值超过固定阈值时裁剪条目)。裁剪已被证明在实践中表现良好,它构成了我们方法的支柱。

我想过给 Mikolov 发电子邮件,以验证他的论文是这个想法的起源。但后来我注意到他是这篇论文的合著者,并引用了他的提议!虽然我仍然想知道它是否在实践中普遍使用,即使它还没有出版。