专业人工翻译的 bleu 分数是多少?

数据挖掘 nlp 机器翻译
2021-10-02 23:49:24

机器翻译模型通常使用 bleu score 进行评估。我想对这个分数有一些直觉。专业人工翻译的 bleu 分数是多少?

我知道这取决于语言,翻译等。我只是想得到规模。

编辑:我想说清楚-我谈论的是预期的蓝色。这不是一个理论问题,而是一个实验问题。

2个回答

原始论文“BLEU: a Method for Automatic Evaluation of Machine Translation”包含几个数字:

BLEU 指标的范围从 0 到 1。除非它们与参考翻译相同,否则很少有翻译会获得 1 分。出于这个原因,即使是人工翻译也不一定会得分 1。需要注意的是,每个句子的参考翻译越多,得分越高。因此,必须谨慎地对使用不同数量的参考翻译的评估进行“粗略”比较:在大约 500 个句子(40 个一般新闻报道)的测试语料库中,人工翻译对四个参考的得分为 0.3468,对两个参考的得分为 0.2571 .

但正如他们的表 1(提供与两个参考文献相比的数字,H2 是上面提到的那个)显示人类 BLEU 分数之间存在差异:

在此处输入图像描述

不幸的是,这篇论文不符合译者的技能水平。

BLEU 分数基于将翻译与黄金标准翻译进行比较来评估。一般来说,黄金标准翻译是由专业翻译人员翻译的同一个源语句,因此理论上专业的人工翻译应始终获得最高分 1(BLEU 分数在 0 和 1 之间标准化)。

然而,重要的是要记住:

  • 即使是专业的翻译人员也不一定就什么是“正确”的翻译达成一致,因此没有完美的评价方法。
  • 同一个句子可以有多个有效的翻译。这可以在 BLEU 分数中考虑,但大多数时候 BLEU 分数是使用单个翻译计算的。因此,完美的翻译可能会得到低分。
  • BLEU 分数基于计算预测翻译和黄金标准之间共有的 n-gram 数量。它是翻译质量的一个很好的代表,但它也是非常基本的。特别是它不能考虑含义。