数据挖掘 - 为什么当源目标反转时 LSTM 表现更好？(Seq2seq) - 吾爱随笔录

为什么当源目标反转时 LSTM 表现更好？(Seq2seq)

数据挖掘机器学习机器翻译

2022-01-30 16:17:39

在这里，作者提到当源目标的顺序颠倒时，LSTM 学得更好。“映射 (c,a'), (b,b'), (a,a') (a',b',c' 是 a,b,c 每个的翻译) 更好。” 但我不知道为什么倒转句子可以让 SGD 更容易地映射输入 n 输出序列。

1个回答

论文还说，我们对这种现象没有完整的解释。

但这里有点解释。

虽然我们对这种现象没有完整的解释，但我们认为这是由于数据集引入了许多短期依赖关系造成的。

通常，当我们将源句与目标句连接时，源句中的每个单词都远离目标句中对应的单词。

因此，该问题具有很大的“最小时滞”[17]。

通过反转源语句中的单词，源语言和目标语言中对应单词之间的平均距离是不变的。

但是，源语言的前几个词现在与目标语言的前几个词非常接近，因此问题的最小时滞大大降低。

因此，反向传播更容易在源句和目标句之间“建立沟通”，从而大大提高整体性能。

其它你可能感兴趣的问题

上一篇推文上的 Gensim word2vec 训练错误下一篇用有限的数据预测硬件故障