是否有包含新闻文章及其标题的数据集?

数据挖掘 机器学习 nlp 机器翻译 自动总结
2022-03-07 06:02:41

我需要一组新闻标题和文章来帮助我完成一个关于自动摘要的项目。有没有这样的数据集或类似的东西?

1个回答

在文本摘要研究中使用最广泛的是DUC数据集。如果您看到使用数据集“DUC 2015”或“DUC 2016”的论文,来自这里。

我也亲自使用了路透社档案。你只需要下载每篇文章wget或类似的东西。另请参见此处

CNN / DailyMail数据集也被广泛用于摘要,尤其是近年来,尽管它将自己标记为问答数据集。