新闻文章及其相关类别的公共数据集

数据挖掘 机器学习 数据挖掘 nlp 数据集 文本挖掘
2021-10-13 06:50:28

我想知道是否有任何具有各种新闻类别的 Google 新闻公共数据集,例如政治、娱乐、生活方式、一般新闻、体育等。

我想使用这样的数据集来检测各种句子或段落的主题。我打算用这样的数据集训练一个分类器并将其用于预测。但是,我找不到任何东西。有没有这样的已知数据集可用?

3个回答

是一个庞大的新闻数据集,其中包含我正是出于这样的原因而创建的类别。

包括 2001 年至 2019 年印度时报发布的所有标题和类别。

包含约 300 万个条目。

该数据集包含在 scikit-learn 中,这是一个流行的 Python 机器学习库。

它是发布到 Usenet 并按组分类的。组标题并不像您在 Google 新闻上看到的那样完全是“类别”,但每个新闻组都应该属于名称所指示的特定主题,因此概念是相似的。例如:

  • alt.atheism, - 无神论
  • comp.graphics, - 计算机图形学
  • ...
  • rec.autos - 汽车
  • rec.motorcycles - 摩托车

Kaggle 中有另一个名为All The News 的大型新闻数据集,您可以 在此处下载。

这些数据主要介于 2016 年和 2017 年 7 月之间。这些数据来自美国大型新闻网站,如纽约时报、布莱巴特、CNN、商业内幕、大西洋、福克斯新闻、谈话要点备忘录、Buzzfeed 新闻和还有很多。