我目前正在研究基于深度学习的机器翻译系统,但我不确定我是否理解该过程的逻辑。我知道源语言和目标语言翻译句子对必须表示为 word2vec 向量,但为什么需要应用两个(编码器-解码器)循环神经网络?我的第一个想法是只应用一个 RNN,其中输入是源语言示例(以 word2vec 向量的形式),输出只是目标语言的 word2vec 序列。为什么需要使用另一个 RNN?
我的另一个问题是,这个系统是否足够灵活,可以处理同义词、词序变化和其他歧义?它是否能够近似一个新的待翻译源语言句子的正确含义?
最后但并非最不重要的一点是:如何评估这样一个可以同时正确翻译多个翻译的模型?