我正在处理新闻数据集的单文档摘要任务。我在这个任务中做了一些实验。我做了一个简单的实验,结果很好,就是从新闻的开头提取句子。现在我想找到任何关于这种句子选择的论文或研究结果。
是否有任何研究表明仅从文本开头选择句子而不进行任何重新排序有多好?
我正在处理新闻数据集的单文档摘要任务。我在这个任务中做了一些实验。我做了一个简单的实验,结果很好,就是从新闻的开头提取句子。现在我想找到任何关于这种句子选择的论文或研究结果。
是否有任何研究表明仅从文本开头选择句子而不进行任何重新排序有多好?
凯塞尔曼,舒伯特
该论文涉及文本摘要的方法(模型)。参考(基础)模型是“第一句模型”:
作为我们模型的基线,我们使用了一个重复输入文档第一句的简单模型。
然后,展示了各种实验和结果,如下所示:(注意“第一句模型”总是作为“基线”出现)
此外,本文中用于训练和评估模型的数据集之一是DUC,您可能会感兴趣。
斯坦伯格(博士论文,2005 年)
在 2.1 节中,作者讨论了基于句子提取的文档摘要方法。他确定了五种方法:
(“First Sentence Approach”属于*Surface Level Approaches”)作者进一步描述了这些方法并进行了比较。
Khodra、Widyantoro、Aziz、Trilaksono (ICT 研究与应用杂志,2011 年)
作者识别并测试了识别文本中最重要句子的方法(参见下面的 58 项列表,称为特征)。令人惊讶的是,在结论中,据说句子的位置是主要特征,这意味着将所有其他特征都考虑在内只会带来很小的改进。
对你来说,论文最重要的部分可能是表 5:
仔细阅读论文中表格的解释,以及整个 4.3 节。
其他值得研究的论文:
卢恩(1958)
Kupiec, Pedersen, Chen (1995)
杨佩德森(1997)
塞巴斯蒂安尼(2002)
在通过第一句话评估自动摘要的好坏之前,您应该决定如何评估摘要。
在监督学习中,通常很容易知道预测是否与概念匹配——它们应该是相同的。在此之后,您可以选择适合您需求的指标(例如,准确度、精确度、召回率)并比较分类器。
评估文本摘要的问题在于,判断摘要是否好是主观的,容易出错。
一个可能的度量标准是ROUGE,它是一组将摘要与原始文本进行比较的启发式方法(例如,常见的最长子序列)。请注意,拥有良好的 ROUGE 分数是一种估计,但这种估计将使您能够将您的算法与其他算法进行基准测试。有关度量和其他算法的讨论,请参阅Josef Steinberger、Karel Jeˇzek 的EVALUATION MEASURES FOR TEXT SUMMARIZATION 。表明您在基于提示词的算法方面获得了不错的成绩将是一个很好的结果。
另一种可能性是通过将第一句话与文本进行比较并手动标记它以获得良好的摘要来建立一个黄金标准。虽然手动标记可以让您很好地估计算法的性能,但它的时间成本很高。一个更严重的缺点是这个黄金标准适合您的算法并且难以用于其他算法。假设第二个句子和第一个句子一样好。为第一句话建立的黄金标准将无法证明这一点。
为了获得良好的估计,我建议您使用 ROUGE 进行比较,并使用黄金标准来获得绝对结果。如果您有资源为基准算法创建黄金标准,则比较将变得更加稳健。