数据挖掘 - 从 PDF 中提取数据 - 吾爱随笔录

我想做一个实验。我想获得以下数据：顾问教育等级（Ing.，Bc.等），论文中的页数，每个学生关于我学校论文作品的引用次数等，但不幸的是，所有这些数据都在3种不同的PDF。

有什么方法可以（最好不要太慢，因为我想使用大型数据集）从 PDF 中收集这些信息？或者也许在其他地方寻找这些数据？

在网站上，元数据只是基本的，例如顾问姓名、学生和职位。

我已经编辑了我的问题，以澄清并非所有人都在同一个地方。我想我必须使用某种网络爬虫？

编辑 2：我按照建议研究了 PyPDF，我看到的问题是我想要的 PDF 中的数据是例如成绩，这只是 PDF 中某处的某个数字，或者教授职称会有所不同每个文件。