我使用斯坦福电影评论数据集来创建情感分析实验。
使用朴素贝叶斯分类算法在 Spark 上创建了一个基本应用程序。
我从 spark ML 管道进行预处理的步骤
- 代币化
- 比格姆斯
上面提供的数据集也有一个独立于训练集的测试数据集。经过训练,我得到了大约 97% 的准确率,我相信这对于 Naive bayes 来说是相当不错的。
现在我可以使用这个 ML 模型来预测其他文本,例如电子邮件/聊天等,我的猜测是这个数据集有足够多的单词集合来执行良好的预测和某些英语单词,而不管业务环境如何,比如“我不像这样“,这看起来不太好”在不同的域中是相同的,例如电影/电子邮件/聊天等。
我没有做过实验,因为我需要掌握的数据属于客户,并且由于隐私限制,我们无法访问这些数据。
任何帮助/指导将不胜感激。