提取和挖掘 PDF 数据

数据挖掘
2022-02-25 15:47:41

我有一个 pdf 文件(入学申请)。我想阅读/搜索 pdf 并提取具有相似含义的术语,然后将此数据转换为 DataFrame 以另存为 xlsm 文件。帮助!

1个回答

在我看来,你有 4 种可能性:

  • 您可以使用tabula直接处理 pdf

  • 您可以使用 pdftotext将 pdf 转换为文本,然后使用 python 解析文本

  • 您可以使用外部工具将您的 pdf 文件转换为 excel 或 CSV,然后使用所需的 python 模块打开 excel/CSV 文件。

  • 您也可以将 pdf 转换为图像文件,然后使用任何最近的 OCR 软件(从图片中自动重建表格)来获取数据

这个答案来自:

您的问题类似于:

问候