情绪分析中的监督方法与主题模型

机器算法验证 机器学习 无监督学习 主题模型 情绪分析
2022-03-28 08:05:12

我正在研究社交媒体上的情绪分析,特别是将博客文章等在线文本分类为正面、负面或中性。

我发现的大多数情绪分析方法都是有监督的(它们需要标记数据来训练分类器)。但是,我还发现了几篇论文,它们使用像这样的联合主题情绪模型(无监督)来做到这一点

根据主题模型论文中的结果,基于主题模型的无监督方法的主要优点是它们不需要任何标记数据(除了先前的“一般”情感信息,即积极/消极词的字典)。但是,它们没有达到监督方法的准确性(准确性降低 2%)。

使用主题情感模型而不是监督方法进行情感分类还有其他优点/缺点吗?

谢谢。

2个回答

像 LDA 这样的无监督方法的一个缺点是,与监督方法相比,它通常需要更长的训练时间。我也对你提到的 2% 的增长感到困惑,根据表 2,他们比较的最佳监督方法和最佳无监督模型之间似乎有 8% 的差异。

虽然我通常喜欢“你能将无监督学习推进多远”的想法,但情绪似乎不适合实践。我之所以这么说是因为情绪分析是最容易(成本、努力)获得标记数据的领域之一,因为互联网上有大量评论和类似内容的评论。如果您的最终目标是准确分类,那么即使您链接的无监督论文似乎也表明您最好花时间抓取这些数据,而不是花时间建立积极的否定词词典和合并先验。

作为附加说明,通过使用无监督模型,可能会获得更多特定于域的结果,特别是如果您对异常域感兴趣。在这种情况下,要为监督学习找到一个好的数据集并不容易,因此您可能需要使用其中一种无监督方法。或者一种半无监督的方法,例如,使用其中一种算法(有一些)为您的特定域创建词典列表,而不是使用该词典列表,您可以使用有监督的方法对文本进行分类。