我有一个 pdf 文件(入学申请)。我想阅读/搜索 pdf 并提取具有相似含义的术语,然后将此数据转换为 DataFrame 以另存为 xlsm 文件。帮助!
提取和挖掘 PDF 数据
数据挖掘
等
2022-02-25 15:47:41
1个回答
在我看来,你有 4 种可能性:
您可以使用tabula直接处理 pdf
您可以使用 pdftotext将 pdf 转换为文本,然后使用 python 解析文本
您可以使用外部工具将您的 pdf 文件转换为 excel 或 CSV,然后使用所需的 python 模块打开 excel/CSV 文件。
您也可以将 pdf 转换为图像文件,然后使用任何最近的 OCR 软件(从图片中自动重建表格)来获取数据
这个答案来自:
您的问题类似于:
https://stackoverflow.com/questions/27927880/extracting-tables-from-a-pdf
https://stackoverflow.com/questions/17591426/extract-table-from-a-pdf
https://stackoverflow.com/questions/25125178/how-to-scrape-tables-in-thousands-of-pdf-files
https://stackoverflow.com/questions/29868541/pdf-data-and-table-scraping-to-excel
问候
其它你可能感兴趣的问题