结合多个特征进行文本分类

数据挖掘 机器学习 Python nlp 特征选择
2022-02-13 03:01:34

最近,我开始阅读更多关于 NLP 的内容并关注 Python 教程,以了解有关该主题的更多信息。我正在尝试制作自己的分类算法(文本发送正面/负面消息),并且我已经对文本进行了预处理并使用不同的方法对其进行了测试,以便找到最适合我的情况。最好的结果是通过使用带有 BOW - unigrams 的随机森林分类器实现的,但准确度仍然可以进一步提高(目前在 0.73 左右)。我接下来要做的是创建一个表情包,尝试不同的情感分析技术(Vader,SentiStrength),计算每个短语中负面/正面单词的数量。我的问题是如何考虑所有这些不同的功能?我应该用所有这些特征给出的结果创建一个表格并计算平均值吗?例如(0 - 分类为阳性):

Classifier   Sentiment analysis   Bag of emojis               Pos/Neg words
  0 or 1           0 or 1             0 or 1        if numberPos > numberNeg consider positive

我对此有点陌生,我想知道是否有人可以指导我正确的方向?

0个回答
没有发现任何回复~