建议文本分类器训练数据集

数据挖掘 机器学习 分类 数据集 聚类 文本挖掘
2021-09-16 07:57:35

我可以使用哪些免费可用的数据集来训练文本分类器?

我们试图通过为他推荐最相关的内容来提高我们的用户参与度,所以我们认为如果我们根据预定义的词袋对我们的内容进行分类,我们可以通过获得他对已分类帖子的随机数量的反馈来向他推荐引人入胜的内容前。

我们可以使用此信息为他推荐标有这些类别的脉冲。但是我们发现,如果我们使用与我们的内容无关的预定义词袋,则特征向量将充满零,类别也可能与我们的内容无关。因此,出于这些原因,我们尝试了另一种解决方案,将我们的内容聚类而不是对其进行分类。

谢谢 :)

4个回答

用于文本分类的一些标准数据集是 20-News 组、路透社(具有 8 和 52 类)和 WebKb。你可以在这里找到所有这些

用于文本分类研究的最广泛使用的测试集之一(链接如下)。我用过很多次。享受你的探索:)

http://www.daviddlewis.com/resources/testcollections/reuters21578/http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

加州大学欧文分校免费提供了一堆数据集供您使用在这些数据集中,有几十个文本数据集可以帮助你们完成任务。

这些是通用数据集,因此根据您的目的,它们不应用作训练模型的唯一数据,否则您的模型(尽管它可能有效)不会产生高质量的结果。

除了上述建议之外,还有一个非常有用的 pdf - Benchmarking Text Collections for Classification and Clustering Tasks,其中包含各种数据集以及用于测试我们模型的基准。这包括 20ng Collection、Reuters 和许多上述建议的数据集。我希望它有帮助!