我正在使用 SVM 算法进行文本分类。我需要知道在哪里可以找到 twitter 数据集以及如何在 weka 工具或任何其他工具中使用它?
文本分类
数据挖掘
分类
文本挖掘
支持向量机
2022-03-03 12:47:54
3个回答
Twitter 有限制共享完整数据集的规则,而不是限制共享推文 ID(请参阅此讨论和开发者协议)。twarc之类的工具可用于通过调用 Twitter api 并检索信息来“补充”推文元数据。Twitter API 有速率限制,这可能会使这个过程有点慢。
对于在 R 中工作的包,请参阅RTextTools或查看RWeka,它弥合了 R 和 Java 之间的差距以使用 Weka。如果使用 Python,还可以使用 scikit-learn 的 svm 实现。
这个twitter 数据集的集合可能会帮助您找到您正在寻找的数据集。主要是情感分析数据集,但也有适度和分类数据集。
其它你可能感兴趣的问题