我最近阅读了有关Salesforce 在抽象文本摘要方面的进展的论文。这表明达到 41.16 的 ROUGE-1 分数明显优于之前的最新技术。
我还阅读了这篇关于(主要是提取的)文本摘要技术的论文。这比较了各种文本摘要方法的 ROUGE-1 分数,并显示 ROUGE-1 分数在 0.3788 到 0.5190 之间。
我假设上面引用的分数只是使用了不同的量表,但即便如此,我还是很难清楚地了解 ROUGE 的工作原理。这个 SO question 说 ROUGE 测量召回率,但这与涵盖精度和召回率的这篇文章相矛盾。
我可以理解,较高的分数表明比以前的分数有所提高。我也可以理解抽象文本摘要比提取文本摘要更难。据推测,作为一名研究人员,您总是会试图获得比以前的技术更好的分数。但作为这些方法的用户,我需要衡量我可以在多大程度上依赖算法,以及我需要在多大程度上使用人类对摘要进行一些后处理。
所以我的问题有两个方面:
- 真正了解 ROUGE 分数实际衡量的最佳方法是什么?
- 一个特定的绝对 ROUGE 分数有多“好”?我将“好”定义为“最大限度地减少对人工后处理的需求”。