数据挖掘 - NMT 模型上异常高的 BLEU 分数 - 吾爱随笔录

这是关于英语/爱尔兰语对的神经机器翻译项目。过去一个月左右，我一直在尝试训练一个好的基线来进行“实验”。我有一个大约 850k 句子的语料库（不幸的是，爱尔兰语非常有限）。当我训练它并用 BLEU 评估它时，我得到了 65.02 的分数，这显然是不正确的。这些是我的 Fairseq-train 设置：

!CUDA_VISIBLE_DEVICES=0 fairseq-train data-bin-full_corp/MayNMT \
  --lr 5e-4 --lr-scheduler inverse_sqrt --optimizer adam\
  --clip-norm 0.1 --dropout 0.2 --max-tokens 4096 \
  --arch transformer --save-dir checkpoints/full-tran

我知道不是每个人都在 NLP 中使用 Fairseq，但我希望这些争论是不言自明的。

我对数据集进行了重复数据删除（转换为set()只接受唯一条目的 Python），所以我认为问题不在于 dev/valid 并且测试集包含重复的条目，但我不确定还有什么原因导致这种情况。一些人认为过度拟合可能是一个原因，但我认为只有在开发集共享训练条目时才会影响 BLEU。我自己也试过找问题，但是涉及NMT的地方并不多，更别说BLEU了。