解读 ROUGE 分数

机器算法验证 文本摘要 胭脂
2022-01-31 22:17:51

我最近阅读了有关Salesforce 在抽象文本摘要方面的进展的论文。这表明达到 41.16 的 ROUGE-1 分数明显优于之前的最新技术。

我还阅读了这篇关于(主要是提取的)文本摘要技术的论文。这比较了各种文本摘要方法的 ROUGE-1 分数,并显示 ROUGE-1 分数在 0.3788 到 0.5190 之间。

我假设上面引用的分数只是使用了不同的量表,但即便如此,我还是很难清楚地了解 ROUGE 的工作原理。这个 SO question 说 ROUGE 测量召回率,但这与涵盖精度和召回率的这篇文章相矛盾

我可以理解,较高的分数表明比以前的分数有所提高。我也可以理解抽象文本摘要比提取文本摘要更难。据推测,作为一名研究人员,您总是会试图获得比以前的技术更好的分数。但作为这些方法的用户,我需要衡量我可以在多大程度上依赖算法,以及我需要在多大程度上使用人类对摘要进行一些后处理。

所以我的问题有两个方面:

  1. 真正了解 ROUGE 分数实际衡量的最佳方法是什么?
  2. 一个特定的绝对 ROUGE 分数有多“好”?我将“好”定义为“最大限度地减少对人工后处理的需求”。
2个回答

作为这些方法的用户,我需要衡量我可以在多大程度上依赖算法,以及我需要在多大程度上使用人工对摘要进行一些后处理。

一个特定的绝对 ROUGE 分数有多“好”?我将“好”定义为“最大限度地减少对人工后处理的需求”。

有两个方面可能会影响人工后处理的需求:

  • 总结听起来流畅吗?
  • 总结够吗?即长度是否合适,它是否涵盖了它总结的文本中最重要的信息?

ROUGE 不会尝试评估摘要的流畅程度:ROUGE 仅尝试通过简单地计算生成的摘要中有多少 n-gram 与参考摘要(或摘要,因为 ROUGE 支持多参考语料库)。

来自https://en.wikipedia.org/w/index.php?title=Automatic_summarization&oldid=808057887#Document_summarization

如果有多个参考,则平均 ROUGE-1 分数。由于 ROUGE 仅基于内容重叠,它可以确定自动摘要和参考摘要之间是否讨论了相同的一般概念,但无法确定结果是否连贯或句子是否以合理的方式流动在一起。高阶 n-gram ROUGE 度量试图在一定程度上判断流畅性。请注意,ROUGE 类似于机器翻译的 BLEU 度量,但 BLEU 是基于精度的,因为翻译系统有利于准确性。

请注意,BLEU 也有同样的问题,您可以在这些相关图上看到,取自 {1}:

在此处输入图像描述

真正了解 ROUGE 分数实际衡量的最佳方法是什么?

简而言之:

  • ROUGE-n recall=40% 表示参考摘要中 40% 的 n-gram 也出现在生成的摘要中。
  • ROUGE-n 精度=40% 意味着生成的摘要中 40% 的 n-gram 也出现在参考摘要中。
  • ROUGE-n F1-score=40% 更难解释,就像任何 F1-score 一样。

ROUGE 比 BLEU 更易于解释(来自 {2}:“其他已知的 Bleu 缺陷:分数难以解释”)。我说大概是因为介绍 ROUGE {3} 的论文中的原始 ROUGE 实现可能会执行更多的操作,例如词干提取。


参考:

您应该阅读 Chin-Yew Lin 的原始 ROUGE 论文,其中深入介绍了各种定义。

ROUGE 是重叠词的分数。ROUGE-N 是指重叠的 n-gram。具体来说:

rsmatch(grams,c)rscount(grams)

与原始论文相比,我试图简化符号。假设我们正在计算 ROUGE-2,也就是二元匹配。分子循环遍历单个参考摘要中的所有二元组,并计算在候选摘要中找到匹配二元组的次数(由摘要算法提出)。如果有多个参考摘要,确保我们对所有参考摘要重复该过程。sr

分母只是计算所有参考摘要中的二元组总数。这是一个文档摘要对的过程。您对所有文档重复该过程,并对所有分数进行平均,这会给您一个 ROUGE-N 分数。因此,较高的分数意味着平均而言,您的摘要和参考文献之间的 n-gram 重叠率很高。

例子:

  • S1。警察击毙了枪手
  • S2。警察杀死枪手
  • S3。枪手杀死警察

S1 是参考,S2 和 S3 是候选。注意 S2 和 S3 都与参考有一个重叠的二元组,因此它们具有相同的 ROUGE-2 分数,尽管 S2 应该更好。一个额外的 ROUGE-L 分数处理这个问题,其中 L 代表最长公共子序列。在 S2 中,第一个词和最后两个词与参考匹配,因此得分为 3/4,而 S3 仅匹配二元组,因此得分为 2/4。有关详细信息,请参阅论文