数据挖掘 - 为什么神经机器翻译模型很难学习稀有词？ - 吾爱随笔录

数据挖掘 nlp 机器翻译

2022-02-13 09:42:16

我对神经机器翻译有点陌生。我读过一些论文，作者通常通过用 unk 标记替换稀有词来限制词汇量。在这篇论文中，他们说“……NMT 模型无法学习稀有词的翻译……”。我想了解为什么 NMT 模式很难学习稀有词，以及字数对 NMT 模型的影响。谢谢

1个回答

稀有词不仅仅是 NMT 的问题，它们通常是 MT 的问题。原因很简单：为了在任何特定上下文中准确翻译一个单词，模型需要在训练阶段看到尽可能多的示例。根据定义，训练数据包含很少出现的稀有词（尤其是只出现一次的hapax词），因此模型没有足够的信息来正确学习它们的翻译。

其它你可能感兴趣的问题