我对神经机器翻译有点陌生。我读过一些论文,作者通常通过用 unk 标记替换稀有词来限制词汇量。在这篇论文中,他们说“……NMT 模型无法学习稀有词的翻译……”。我想了解为什么 NMT 模式很难学习稀有词,以及字数对 NMT 模型的影响。谢谢
为什么神经机器翻译模型很难学习稀有词?
数据挖掘
nlp
机器翻译
2022-02-13 09:42:16
1个回答
稀有词不仅仅是 NMT 的问题,它们通常是 MT 的问题。原因很简单:为了在任何特定上下文中准确翻译一个单词,模型需要在训练阶段看到尽可能多的示例。根据定义,训练数据包含很少出现的稀有词(尤其是只出现一次的hapax词),因此模型没有足够的信息来正确学习它们的翻译。
其它你可能感兴趣的问题