数据挖掘 - 专业人工翻译的 bleu 分数是多少？ - 吾爱随笔录

专业人工翻译的 bleu 分数是多少？

数据挖掘 nlp 机器翻译

2021-10-02 23:49:24

机器翻译模型通常使用 bleu score 进行评估。我想对这个分数有一些直觉。专业人工翻译的 bleu 分数是多少？

我知道这取决于语言，翻译等。我只是想得到规模。

编辑：我想说清楚-我谈论的是预期的蓝色。这不是一个理论问题，而是一个实验问题。

2个回答

原始论文“BLEU: a Method for Automatic Evaluation of Machine Translation”包含几个数字：

BLEU 指标的范围从 0 到 1。除非它们与参考翻译相同，否则很少有翻译会获得 1 分。出于这个原因，即使是人工翻译也不一定会得分 1。需要注意的是，每个句子的参考翻译越多，得分越高。因此，必须谨慎地对使用不同数量的参考翻译的评估进行“粗略”比较：在大约 500 个句子（40 个一般新闻报道）的测试语料库中，人工翻译对四个参考的得分为 0.3468，对两个参考的得分为 0.2571 .

但正如他们的表 1（提供与两个参考文献相比的数字，H2 是上面提到的那个）显示人类 BLEU 分数之间存在差异：

不幸的是，这篇论文不符合译者的技能水平。

BLEU 分数基于将翻译与黄金标准翻译进行比较来评估。一般来说，黄金标准翻译是由专业翻译人员翻译的同一个源语句，因此理论上专业的人工翻译应始终获得最高分 1（BLEU 分数在 0 和 1 之间标准化）。

然而，重要的是要记住：

即使是专业的翻译人员也不一定就什么是“正确”的翻译达成一致，因此没有完美的评价方法。
同一个句子可以有多个有效的翻译。这可以在 BLEU 分数中考虑，但大多数时候 BLEU 分数是使用单个翻译计算的。因此，完美的翻译可能会得到低分。
BLEU 分数基于计算预测翻译和黄金标准之间共有的 n-gram 数量。它是翻译质量的一个很好的代表，但它也是非常基本的。特别是它不能考虑含义。

其它你可能感兴趣的问题

上一篇删除给定文本中某个字符之后的字符串下一篇最近邻搜索非常高维的数据