如何自动从给定文档(docx、pdf 等)中提取相关标题?
一些想法:
- 直觉上可能是文本的第一行
- 不能是日期、“保留所有权利”、“哈佛大学 - 法学院”等。
- 可能在页脚
- 人脑立即解决了这个问题(通过过滤掉常见的名称和数字)
我在 python 中使用 textract 来提取整个文本,这将解决方案限制为仅基于文本。如果您熟悉任何其他软件包,请告诉我。
如何自动从给定文档(docx、pdf 等)中提取相关标题?
一些想法:
我在 python 中使用 textract 来提取整个文本,这将解决方案限制为仅基于文本。如果您熟悉任何其他软件包,请告诉我。