从 PDF 中提取数据

数据挖掘 数据挖掘 数据 大数据
2022-02-14 19:19:48

我想做一个实验。我想获得以下数据:顾问教育等级(Ing.,Bc.等),论文中的页数,每个学生关于我学校论文作品的引用次数等,但不幸的是,所有这些数据都在3种不同的PDF。

有什么方法可以(最好不要太慢,因为我想使用大型数据集)从 PDF 中收集这些信息?或者也许在其他地方寻找这些数据?

在网站上,元数据只是基本的,例如顾问姓名、学生和职位。

我已经编辑了我的问题,以澄清并非所有人都在同一个地方。我想我必须使用某种网络爬虫?

编辑 2:我按照建议研究了 PyPDF,我看到的问题是我想要的 PDF 中的数据是例如成绩,这只是 PDF 中某处的某个数字,或者教授职称会有所不同每个文件。

1个回答

我建议首先将 pdf 解析为原始文本,然后在下一步中检索信息。我假设你使用 Python。

正如所评论的,您可以使用PyPDF2获取原始文本和文档的页数。或者,您可以使用AWS Textract等云服务将多个 pdf 解析为原始文本。

然后,您可以将正则表达式(例如re.findall()使用特定匹配模式)应用于已解析的 pdf 文档,以匹配您要查找的术语。