我目前正在使用 Python 进行情绪分析。在这里,我从电影数据集中获取所有评论,并使用朴素贝叶斯算法来预测评论是正面的还是负面的。从输入数据集中,我使用一个逻辑来删除停用词,然后训练我的数据集来预测结果。到目前为止,我的测试结果是预测的,但很少有结果预测错误。
This was a great film. Jack Halley is comical as usual and Bela Lugos is hilarious even in his tiny role. I love this flick.
例如,上面的句子是肯定的,但它预测为否定的。类似的情况发生在许多其他场景中。如果它有一些讽刺意味,那么它有可能以另一种方式预测。但是对于很少的直接评论,它正在预测另一种方式。您能否建议其他方法来改进我的算法,以提高预测的准确性。除了删除停用词还有其他有效的方法吗?我一直在通过互联网寻找各种建议,但我对这个话题很陌生,因此找不到有效的方法来继续。任何好的建议将不胜感激。