我想知道是否有任何具有各种新闻类别的 Google 新闻公共数据集,例如政治、娱乐、生活方式、一般新闻、体育等。
我想使用这样的数据集来检测各种句子或段落的主题。我打算用这样的数据集训练一个分类器并将其用于预测。但是,我找不到任何东西。有没有这样的已知数据集可用?
我想知道是否有任何具有各种新闻类别的 Google 新闻公共数据集,例如政治、娱乐、生活方式、一般新闻、体育等。
我想使用这样的数据集来检测各种句子或段落的主题。我打算用这样的数据集训练一个分类器并将其用于预测。但是,我找不到任何东西。有没有这样的已知数据集可用?
该数据集包含在 scikit-learn 中,这是一个流行的 Python 机器学习库。
它是发布到 Usenet 并按组分类的。组标题并不像您在 Google 新闻上看到的那样完全是“类别”,但每个新闻组都应该属于名称所指示的特定主题,因此概念是相似的。例如:
Kaggle 中有另一个名为All The News 的大型新闻数据集,您可以 在此处下载。
这些数据主要介于 2016 年和 2017 年 7 月之间。这些数据来自美国大型新闻网站,如纽约时报、布莱巴特、CNN、商业内幕、大西洋、福克斯新闻、谈话要点备忘录、Buzzfeed 新闻和还有很多。