文本分类

数据挖掘 分类 文本挖掘 支持向量机
2022-03-03 12:47:54

我正在使用 SVM 算法进行文本分类。我需要知道在哪里可以找到 twitter 数据集以及如何在 weka 工具或任何其他工具中使用它?

3个回答

Twitter 有限制共享完整数据集的规则,而不是限制共享推文 ID(请参阅此讨论开发者协议)。twarc之类的工具可用于通过调用 Twitter api 并检索信息来“补充”推文元数据。Twitter API 有速率限制,这可能会使这个过程有点慢。

对于在 R 中工作的包,请参阅RTextTools或查看RWeka,它弥合了 R 和 Java 之间的差距以使用 Weka。如果使用 Python,还可以使用 scikit-learn 的 svm 实现。

这个twitter 数据集的集合可能会帮助您找到您正在寻找的数据集。主要是情感分析数据集,但也有适度和分类数据集。

这些是我为此找到的几个网站。我不是 R 程序员,所以我不知道任何 Weka 工具以及如何使用它们,但希望这会有所帮助。你可以在这里这里找到它们。