我想做一个实验。我想获得以下数据:顾问教育等级(Ing.,Bc.等),论文中的页数,每个学生关于我学校论文作品的引用次数等,但不幸的是,所有这些数据都在3种不同的PDF。
有什么方法可以(最好不要太慢,因为我想使用大型数据集)从 PDF 中收集这些信息?或者也许在其他地方寻找这些数据?
在网站上,元数据只是基本的,例如顾问姓名、学生和职位。
我已经编辑了我的问题,以澄清并非所有人都在同一个地方。我想我必须使用某种网络爬虫?
编辑 2:我按照建议研究了 PyPDF,我看到的问题是我想要的 PDF 中的数据是例如成绩,这只是 PDF 中某处的某个数字,或者教授职称会有所不同每个文件。