我正在寻找一个包含大量 NLP 研究论文和摘要的数据集。有没有这样的开放存取数据集?
如果是这样,你能分享一下细节吗?
我在CS 20SI GitHub 存储库中遇到过这样的数据集:它是 7200 篇研究论文的摘要集合。
如果您需要更多,您可以随时编写一个简单的arXiv 网站爬虫。摘要在网页上以标签的形式列出<blockquote>,无需下载和解析 pdf。
<blockquote>