机器翻译模型通常使用 bleu score 进行评估。我想对这个分数有一些直觉。专业人工翻译的 bleu 分数是多少?
我知道这取决于语言,翻译等。我只是想得到规模。
编辑:我想说清楚-我谈论的是预期的蓝色。这不是一个理论问题,而是一个实验问题。
机器翻译模型通常使用 bleu score 进行评估。我想对这个分数有一些直觉。专业人工翻译的 bleu 分数是多少?
我知道这取决于语言,翻译等。我只是想得到规模。
编辑:我想说清楚-我谈论的是预期的蓝色。这不是一个理论问题,而是一个实验问题。
原始论文“BLEU: a Method for Automatic Evaluation of Machine Translation”包含几个数字:
BLEU 指标的范围从 0 到 1。除非它们与参考翻译相同,否则很少有翻译会获得 1 分。出于这个原因,即使是人工翻译也不一定会得分 1。需要注意的是,每个句子的参考翻译越多,得分越高。因此,必须谨慎地对使用不同数量的参考翻译的评估进行“粗略”比较:在大约 500 个句子(40 个一般新闻报道)的测试语料库中,人工翻译对四个参考的得分为 0.3468,对两个参考的得分为 0.2571 .
但正如他们的表 1(提供与两个参考文献相比的数字,H2 是上面提到的那个)显示人类 BLEU 分数之间存在差异:
不幸的是,这篇论文不符合译者的技能水平。
BLEU 分数基于将翻译与黄金标准翻译进行比较来评估。一般来说,黄金标准翻译是由专业翻译人员翻译的同一个源语句,因此理论上专业的人工翻译应始终获得最高分 1(BLEU 分数在 0 和 1 之间标准化)。
然而,重要的是要记住: