我目前正在阅读这篇论文:https ://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
在这里,作者提到当源目标的顺序颠倒时,LSTM 学得更好。“映射 (c,a'), (b,b'), (a,a') (a',b',c' 是 a,b,c 每个的翻译) 更好。” 但我不知道为什么倒转句子可以让 SGD 更容易地映射输入 n 输出序列。
我目前正在阅读这篇论文:https ://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf
在这里,作者提到当源目标的顺序颠倒时,LSTM 学得更好。“映射 (c,a'), (b,b'), (a,a') (a',b',c' 是 a,b,c 每个的翻译) 更好。” 但我不知道为什么倒转句子可以让 SGD 更容易地映射输入 n 输出序列。
论文还说,我们对这种现象没有完整的解释。
但这里有点解释。
虽然我们对这种现象没有完整的解释,但我们认为这是由于数据集引入了许多短期依赖关系造成的。
通常,当我们将源句与目标句连接时,源句中的每个单词都远离目标句中对应的单词。
因此,该问题具有很大的“最小时滞”[17]。
通过反转源语句中的单词,源语言和目标语言中对应单词之间的平均距离是不变的。
但是,源语言的前几个词现在与目标语言的前几个词非常接近,因此问题的最小时滞大大降低。
因此,反向传播更容易在源句和目标句之间“建立沟通”,从而大大提高整体性能。