数据挖掘 - 如何从文档中提取标题？ - 吾爱随笔录

数据挖掘数据挖掘 nlp 文本挖掘数据清理

2022-02-13 05:10:44

如何自动从给定文档（docx、pdf 等）中提取相关标题？

一些想法：

我在 python 中使用 textract 来提取整个文本，这将解决方案限制为仅基于文本。如果您熟悉任何其他软件包，请告诉我。

1个回答

自动提取标题是提取摘要的一个例子。它通常通过监督学习和半监督学习的组合来解决。最近，具有注意力的深度学习模型一直在提供最先进的结果。

您需要标记来训练自己的模型或使用已建立的软件包，例如symy。

其它你可能感兴趣的问题