数据挖掘 - 文本分类 - 吾爱随笔录

数据挖掘分类文本挖掘支持向量机

2022-03-03 12:47:54

我正在使用 SVM 算法进行文本分类。我需要知道在哪里可以找到 twitter 数据集以及如何在 weka 工具或任何其他工具中使用它？

3个回答

Twitter 有限制共享完整数据集的规则，而不是限制共享推文 ID（请参阅此讨论和开发者协议）。twarc之类的工具可用于通过调用 Twitter api 并检索信息来“补充”推文元数据。Twitter API 有速率限制，这可能会使这个过程有点慢。

对于在 R 中工作的包，请参阅RTextTools或查看RWeka，它弥合了 R 和 Java 之间的差距以使用 Weka。如果使用 Python，还可以使用 scikit-learn 的 svm 实现。

这个twitter 数据集的集合可能会帮助您找到您正在寻找的数据集。主要是情感分析数据集，但也有适度和分类数据集。

这些是我为此找到的几个网站。我不是 R 程序员，所以我不知道任何 Weka 工具以及如何使用它们，但希望这会有所帮助。你可以在这里和这里找到它们。

其它你可能感兴趣的问题