哪部作品最初引入了渐变剪裁?
简答
Tomas Mikolov 在 2012 年博士论文的一个段落中提到了渐变剪裁,这是文献中的第一次出现。
长答案
深度学习书中的第一个来源(Mikolov,2012)是 Mikolov 的博士论文,可以在这里找到。第 3.2.2 节的末尾是讨论梯度裁剪的地方,只是它被称为turncating。
... 爆炸梯度问题已在 [4] 中进行了描述。
梯度爆炸问题的一个简单解决方案是截断梯度值。在我的实验中,我确实将隐藏神经元中累积的误差梯度的最大大小限制在 < -15 的范围内;15 >。这大大提高了训练的稳定性,否则不可能在大型数据集上成功训练 RNN LM。
...
[4] Y. Bengio、P. Simard、P. Frasconi。使用梯度下降学习长期依赖是很困难的。IEEE Transactions on Neural Networks, 5, 157-166, 1994。
对参考论文[4]的搜索表明,它确实描述了 Mikolov 所说的问题,但并未将梯度裁剪作为解决方案。
所以我看了一下深度学习提到的第二个来源:关于训练递归神经网络的难度。它直接引用了 Mikolov 提出的剪辑建议:
我们将对 Tomas Mikolov 在他的博士论文 (Mikolov, 2012) 中提出的方法做最后的说明(并隐含地用于语言建模的最新成果中 (Mikolov et al., 2011))。它涉及按元素裁剪梯度的时间分量(当条目的绝对值超过固定阈值时裁剪条目)。裁剪已被证明在实践中表现良好,它构成了我们方法的支柱。
我想过给 Mikolov 发电子邮件,以验证他的论文是这个想法的起源。但后来我注意到他是这篇论文的合著者,并引用了他的提议!虽然我仍然想知道它是否在实践中普遍使用,即使它还没有出版。