这是关于英语/爱尔兰语对的神经机器翻译项目。过去一个月左右,我一直在尝试训练一个好的基线来进行“实验”。我有一个大约 850k 句子的语料库(不幸的是,爱尔兰语非常有限)。当我训练它并用 BLEU 评估它时,我得到了 65.02 的分数,这显然是不正确的。这些是我的 Fairseq-train 设置:
!CUDA_VISIBLE_DEVICES=0 fairseq-train data-bin-full_corp/MayNMT \
--lr 5e-4 --lr-scheduler inverse_sqrt --optimizer adam\
--clip-norm 0.1 --dropout 0.2 --max-tokens 4096 \
--arch transformer --save-dir checkpoints/full-tran
我知道不是每个人都在 NLP 中使用 Fairseq,但我希望这些争论是不言自明的。
我对数据集进行了重复数据删除(转换为set()只接受唯一条目的 Python),所以我认为问题不在于 dev/valid 并且测试集包含重复的条目,但我不确定还有什么原因导致这种情况。一些人认为过度拟合可能是一个原因,但我认为只有在开发集共享训练条目时才会影响 BLEU。我自己也试过找问题,但是涉及NMT的地方并不多,更别说BLEU了。