我正在开始尝试推文情绪分析(正面、中性、负面)。到目前为止,我已经清理了数据并使用 BoW 来了解数据(> 2.5k 条推文)。我还制作了二元组以尝试获得更清晰的情绪洞察力。
数据严重偏斜,因此我尝试了上采样和下采样来查看差异。
我最终通过一个随机森林分类器将其全部通过,上采样数据的准确度为 0.7,下采样数据的准确度为 0.3。
我在混淆矩阵中对此进行了可视化,我可以看到该模型实际上无法正确标记。我检索了 Precision、Recall 和 F1。我可以看到我首先对正面和负面情绪有问题(值<0.45)
我已经尝试回去清理数据,但在这一点上,我想不出其他任何事情要做(我已经运行了词干提取、引理、标记化、停用词并添加了保留在那里的停用词,删除了特殊字符( @、# 等)和超链接。
我还给了我的 countvectorizer 1,1 的 ngram 范围;2,2; 3,3; 但没有检测到大的变化。
这是我第一次这样做,有人可以在这里指出正确的方向吗?