分类器所需的训练数据集

数据挖掘 分类 Python
2022-02-28 09:27:05

我目前正在尝试使用朴素贝叶斯技术在 python 中开发分类器。我需要一个数据集,以便我可以训练它。我的分类器会将给它的新文档分类为以下四个类别之一:科学和技术、体育、政治、娱乐。任何人都可以帮我找到一个数据集。我已经被这个问题困扰了很长一段时间了。任何帮助将不胜感激。

3个回答

你至少有三个选择:

  • 使用许多可用数据集中的一些(例如:BBC 文档);如果您需要更多,只需转到 Google Scholar 或任何类似服务并搜索分类新闻政治体育在文章中,您可能会发现许多对可用数据集的引用;

  • 爬取任何新闻服务,并使用聚类技术将文章分组(这通常将文章沿其领域分开,例如政治、体育等),并根据文章与集群的从属关系标记文章;

  • 抓取特定于政治、特定于体育的新闻服务,并将它们用作标记数据集。

应该为您的分类练习提供最大的数据集。

UCI 机器学习 repo是我寻找数据集以在非常广泛的主题上工作的地方数据集已经被清理并标记了它们最初用于的任务。如果你在谷歌上搜索数据集,你会经常找到引用它们的论文或论坛,其中包含你自己可能遇到的问题。那里有许多基于文本的分类任务数据集。