在单文档摘要中从新闻开头提取句子

数据挖掘 nlp 文本挖掘 自动总结
2022-03-13 05:51:13

我正在处理新闻数据集的单文档摘要任务。我在这个任务中做了一些实验。我做了一个简单的实验,结果很好,就是从新闻的开头提取句子。现在我想找到任何关于这种句子选择的论文或研究结果。

是否有任何研究表明仅从文本开头选择句子而不进行任何重新排序有多好?

2个回答

凯塞尔曼,舒伯特

文本摘要的计算模型

该论文涉及文本摘要的方法(模型)。参考(基础)模型是“第一句模型”:

作为我们模型的基线,我们使用了一个重复输入文档第一句的简单模型。

然后,展示了各种实验和结果,如下所示:(注意“第一句模型”总是作为“基线”出现)

在此处输入图像描述

此外,本文中用于训练和评估模型的数据集之一是DUC,您可能会感兴趣。


斯坦伯格(博士论文,2005 年)

LSA 框架内的文本摘要

在 2.1 节中,作者讨论了基于句子提取的文档摘要方法。他确定了五种方法:

  • 表面水平方法
  • 基于语料库的方法
  • 基于内聚的方法
  • 基于修辞的方法
  • 基于图的方法

(“First Sentence Approach”属于*Surface Level Approaches”)作者进一步描述了这些方法并进行了比较。


Khodra、Widyantoro、Aziz、Trilaksono (ICT 研究与应用杂志,2011 年)

用于自动提取主题句的句子分类器自由模型

作者识别并测试了识别文本中最重要句子的方法(参见下面的 58 项列表,称为特征)。令人惊讶的是,在结论中,据说句子的位置是主要特征,这意味着将所有其他特征都考虑在内只会带来很小的改进。

  1. 位置
  2. 句子长度
  3. 主要动词前的词数
  4. 形容词发生率
  5. 存在发生率
  6. 第三人称单数语法形式的出现率
  7. 回指发生率
  8. 协调员发生率
  9. 基数发生率
  10. 过去式结尾的发生率
  11. 上位词
  12. 多义
  13. 具体指数
  14. 影响公式
  15. 坏公式
  16. 比较公式
  17. 继续公式
  18. 对比公式
  19. detail_formulaic
  20. 未来公式
  21. gap_formulaic
  22. 好公式
  23. here_formulaic
  24. in_order_to_formulaic
  25. 方法公式
  26. no_textstructure_formulaic
  27. 相似度公式
  28. 他们公式
  29. 文本结构公式
  30. 传统公式
  31. us_previous_formulaic
  32. 影响
  33. 论证
  34. 更好的解决方案
  35. 改变
  36. 比较
  37. 继续
  38. 对比
  39. 兴趣
  40. 需要
  41. 介绍
  42. 问题
  43. 研究
  44. 解决方案
  45. 文本结构
  46. 采用
  47. 系词
  48. 目标参考代理
  49. gap_agent
  50. general_agent
  51. 问题代理
  52. ref_agent
  53. ref_us_agent
  54. 解决方案代理
  55. 文本结构代理
  56. 他们代理
  57. 他们代词代理
  58. us_agent

对你来说,论文最重要的部分可能是表 5:

在此处输入图像描述

仔细阅读论文中表格的解释,以及整个 4.3 节。


其他值得研究的论文:


卢恩(1958)

文献摘要的自动生成


Kupiec, Pedersen, Chen (1995)

可训练的文档摘要器


杨佩德森(1997)

文本分类中特征选择的比较研究


塞巴斯蒂安尼(2002)

自动文本分类中的机器学习


在通过第一句话评估自动摘要的好坏之前,您应该决定如何评估摘要。

在监督学习中,通常很容易知道预测是否与概念匹配——它们应该是相同的。在此之后,您可以选择适合您需求的指标(例如,准确度、精确度、召回率)并比较分类器。

评估文本摘要的问题在于,判断摘要是否好是主观的,容易出错。

一个可能的度量标准是ROUGE,它是一组将摘要与原始文本进行比较的启发式方法(例如,常见的最长子序列)。请注意,拥有良好的 ROUGE 分数是一种估计,但这种估计将使您能够将您的算法与其他算法进行基准测试。有关度量和其他算法的讨论,请参阅Josef Steinberger、Karel Jeˇzek 的EVALUATION MEASURES FOR TEXT SUMMARIZATION 。表明您在基于提示词的算法方面获得了不错的成绩将是一个很好的结果。

另一种可能性是通过将第一句话与文本进行比较并手动标记它以获得良好的摘要来建立一个黄金标准。虽然手动标记可以让您很好地估计算法的性能,但它的时间成本很高。一个更严重的缺点是这个黄金标准适合您的算法并且难以用于其他算法。假设第二个句子和第一个句子一样好。为第一句话建立的黄金标准将无法证明这一点。

为了获得良好的估计,我建议您使用 ROUGE 进行比较,并使用黄金标准来获得绝对结果。如果您有资源为基准算法创建黄金标准,则比较将变得更加稳健。