RNN 训练中经常提到的问题之一是梯度消失问题 [1,2,3,4]。
然而,我遇到了 Anton Maximilian Schaefer、Steffen Udluft 和 Hans-Georg Zimmermann 的几篇论文(例如 [5]),他们声称如果使用共享权重,即使在简单的 RNN 中也不存在问题。
那么,哪一个是正确的——梯度消失问题是否存在?
Y.Bengio 等人很难通过梯度下降学习长期依赖关系。(1994)
S.Hochreiter (1997)学习递归神经网络期间的梯度消失问题和问题解决方案
递归网络中的梯度流: S.Hochreiter 等人学习长期依赖的难度。(2003)
R.Pascanu 等人关于训练递归神经网络的难度。(2012)
AM Schaefer 等人使用递归神经网络学习长期依赖关系。(2008)