如何从文档中提取标题?

数据挖掘 数据挖掘 nlp 文本挖掘 数据清理
2022-02-13 05:10:44

如何自动从给定文档(docx、pdf 等)中提取相关标题?

一些想法:

  • 直觉上可能是文本的第一行
  • 不能是日期、“保留所有权利”、“哈佛大学 - 法学院”等。
  • 可能在页脚
  • 人脑立即解决了这个问题(通过过滤掉常见的名称和数字)

我在 python 中使用 textract 来提取整个文本,这将解决方案限制为仅基于文本。如果您熟悉任何其他软件包,请告诉我。

1个回答

自动提取标题是提取摘要的一个例子。它通常通过监督学习和半监督学习的组合来解决。最近,具有注意力的深度学习模型一直在提供最先进的结果。

您需要标记来训练自己的模型或使用已建立的软件包,例如symy