我可以使用哪些免费可用的数据集来训练文本分类器?
我们试图通过为他推荐最相关的内容来提高我们的用户参与度,所以我们认为如果我们根据预定义的词袋对我们的内容进行分类,我们可以通过获得他对已分类帖子的随机数量的反馈来向他推荐引人入胜的内容前。
我们可以使用此信息为他推荐标有这些类别的脉冲。但是我们发现,如果我们使用与我们的内容无关的预定义词袋,则特征向量将充满零,类别也可能与我们的内容无关。因此,出于这些原因,我们尝试了另一种解决方案,将我们的内容聚类而不是对其进行分类。
谢谢 :)
我可以使用哪些免费可用的数据集来训练文本分类器?
我们试图通过为他推荐最相关的内容来提高我们的用户参与度,所以我们认为如果我们根据预定义的词袋对我们的内容进行分类,我们可以通过获得他对已分类帖子的随机数量的反馈来向他推荐引人入胜的内容前。
我们可以使用此信息为他推荐标有这些类别的脉冲。但是我们发现,如果我们使用与我们的内容无关的预定义词袋,则特征向量将充满零,类别也可能与我们的内容无关。因此,出于这些原因,我们尝试了另一种解决方案,将我们的内容聚类而不是对其进行分类。
谢谢 :)
用于文本分类的一些标准数据集是 20-News 组、路透社(具有 8 和 52 类)和 WebKb。你可以在这里找到所有这些。
用于文本分类研究的最广泛使用的测试集之一(链接如下)。我用过很多次。享受你的探索:)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ 或 http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
除了上述建议之外,还有一个非常有用的 pdf - Benchmarking Text Collections for Classification and Clustering Tasks,其中包含各种数据集以及用于测试我们模型的基准。这包括 20ng Collection、Reuters 和许多上述建议的数据集。我希望它有帮助!