通用数据集能否适用于特定的情绪分析

数据挖掘 机器学习 阿帕奇火花 情绪分析
2022-03-06 17:32:04

我使用斯坦福电影评论数据集来创建情感分析实验。

使用朴素贝叶斯分类算法在 Spark 上创建了一个基本应用程序。

我从 spark ML 管道进行预处理的步骤

  • 代币化
  • 比格姆斯

上面提供的数据集也有一个独立于训练集的测试数据集。经过训练,我得到了大约 97% 的准确率,我相信这对于 Naive bayes 来说是相当不错的。

现在我可以使用这个 ML 模型来预测其他文本,例如电子邮件/聊天等,我的猜测是这个数据集有足够多的单词集合来执行良好的预测和某些英语单词,而不管业务环境如何,比如“我不像这样“,这看起来不太好”在不同的域中是相同的,例如电影/电子邮件/聊天等。

我没有做过实验,因为我需要掌握的数据属于客户,并且由于隐私限制,我们无法访问这些数据。

任何帮助/指导将不胜感激。

1个回答

这取决于。

您基本上是在询问您的样本(训练数据)是否代表总体(所有书面文字)。

  1. 您是否正在对电影评论进行情感分析?它会很好用。
  2. 您是否正在对电视评论进行情绪分析?它可能会很好用。
  3. 您是否正在对书评进行情感分析?我会给出比 50-50 更好的几率它会起作用。
  4. 您是否在 Twitter 帖子上进行情绪分析?现在我们开始动摇了。人们倾向于写得更少,使用更少的正式语言,并使用更多你的电影评论模型不会看到的表情符号。

话虽如此,肯定有像这里这样的“通用”情绪分析服务。根据您认为的通用数据集(例如一堆推文),针对 Algorithmia 尝试您的模型,看看它是如何工作的。