数据挖掘 - 结合多个特征进行文本分类 - 吾爱随笔录

最近，我开始阅读更多关于 NLP 的内容并关注 Python 教程，以了解有关该主题的更多信息。我正在尝试制作自己的分类算法（文本发送正面/负面消息），并且我已经对文本进行了预处理并使用不同的方法对其进行了测试，以便找到最适合我的情况。最好的结果是通过使用带有 BOW - unigrams 的随机森林分类器实现的，但准确度仍然可以进一步提高（目前在 0.73 左右）。我接下来要做的是创建一个表情包，尝试不同的情感分析技术（Vader，SentiStrength），计算每个短语中负面/正面单词的数量。我的问题是如何考虑所有这些不同的功能？我应该用所有这些特征给出的结果创建一个表格并计算平均值吗？例如（0 - 分类为阳性）：

Classifier   Sentiment analysis   Bag of emojis               Pos/Neg words
  0 or 1           0 or 1             0 or 1        if numberPos > numberNeg consider positive

我对此有点陌生，我想知道是否有人可以指导我正确的方向？