数据集 - 用于文本处理的示例 pdf?

数据挖掘 机器学习 nlp 数据集 文本挖掘
2022-02-19 17:23:58

我正在寻找大量的 pdf 文件来测试我的文本处理程序。试图寻找一个开放的网站来获得几千个 pdf,但找不到任何东西。我真的不知道这是否是问的正确地方(可能不是),但也许有人对我有一个很好的建议。

提前致谢。

1个回答

包含约 1,000 个 pdf 的 GitHub 存储库在这里

另一个 GitHub 存储库有一个 pdf 示例语料库,包括edge-cases,在这里