NLP 研究论文中的数据集

数据挖掘 数据挖掘 nlp 数据集 文本挖掘
2022-02-17 04:34:27

我正在寻找一个包含大量 NLP 研究论文和摘要的数据集。有没有这样的开放存取数据集?

如果是这样,你能分享一下细节吗?

1个回答

我在CS 20SI GitHub 存储库中遇到过这样的数据集:它是 7200 篇研究论文的摘要集合。

如果您需要更多,您可以随时编写一个简单的arXiv 网站爬虫。摘要在网页上以标签的形式列出<blockquote>,无需下载和解析 pdf。