数据挖掘 - 提取和挖掘 PDF 数据 - 吾爱随笔录 - 问答

提取和挖掘 PDF 数据

数据挖掘等

2022-02-25 15:47:41

我有一个 pdf 文件（入学申请）。我想阅读/搜索 pdf 并提取具有相似含义的术语，然后将此数据转换为 DataFrame 以另存为 xlsm 文件。帮助！

1个回答

在我看来，你有 4 种可能性：

您可以使用tabula直接处理 pdf
您可以使用 pdftotext将 pdf 转换为文本，然后使用 python 解析文本
您可以使用外部工具将您的 pdf 文件转换为 excel 或 CSV，然后使用所需的 python 模块打开 excel/CSV 文件。
您也可以将 pdf 转换为图像文件，然后使用任何最近的 OCR 软件（从图片中自动重建表格）来获取数据

这个答案来自：

https://stackoverflow.com/questions/47533875/how-to-extract-table-as-text-from-the-pdf-using-python/53050405

您的问题类似于：

问候

其它你可能感兴趣的问题

上一篇如何使用网格搜索绘制树数和 OOB 分数下一篇偏斜数据不遵循正态分布