最近,我开始阅读更多关于 NLP 的内容并关注 Python 教程,以了解有关该主题的更多信息。我正在尝试制作自己的分类算法(文本发送正面/负面消息),并且我已经对文本进行了预处理并使用不同的方法对其进行了测试,以便找到最适合我的情况。最好的结果是通过使用带有 BOW - unigrams 的随机森林分类器实现的,但准确度仍然可以进一步提高(目前在 0.73 左右)。我接下来要做的是创建一个表情包,尝试不同的情感分析技术(Vader,SentiStrength),计算每个短语中负面/正面单词的数量。我的问题是如何考虑所有这些不同的功能?我应该用所有这些特征给出的结果创建一个表格并计算平均值吗?例如(0 - 分类为阳性):
Classifier Sentiment analysis Bag of emojis Pos/Neg words
0 or 1 0 or 1 0 or 1 if numberPos > numberNeg consider positive
我对此有点陌生,我想知道是否有人可以指导我正确的方向?