多输出分类+情感分析

数据挖掘 机器学习 分类 多类分类 多标签分类 情绪分析
2022-02-27 08:58:45

我遇到了一些文本分类问题,需要您的帮助来了解处理它的最佳方法。

问题陈述如下:假设我有一组描述某种产品的句子(假设它们是家具)。每个句子都需要用一个来自 10 个可能类名册的类进行标记。这 10 个类别指的是项目的可能属性,例如柔和度、亮度等。最重要的是,句子包含每个项目的情绪信息(好、坏、中性)。例:“我对这个沙发的性能很满意,真的很软”。

第一个问题是:你将如何处理用类别和情感标记每个句子的问题?

现在,为了让事情变得更复杂,假设每个句子最多可以描述 3 个具有相对情绪的项目。 在这种情况下,您将如何处理多输出情感+类别问题?

非常感谢您的帮助!

1个回答

“唾手可得”的方法是“言词”。

对句子进行词元化并使用词元频率作为特征。

建立两个模型:

  1. 情绪(或重用StanfordCoreNLP
  2. 主题(为此,您需要一个训练样本 - 一组标有主题的句子)。

现在您可以将每个句子映射到主题和情绪,这将告诉您客户是否喜欢或不喜欢(情绪)柔软度(主题)。

多主题句

通常一个句子只有一个主题,但是,如果每个句子确实需要多个主题,则可以使用predict_proba或类似并使用概率超过 0.3 的所有类。

阶级扩散

上述方法在类似的句子上失败了

我喜欢柔软,但讨厌这种设计。

因为句子的总(平均)情绪可能是neutraland 我们错过了softness-goodand design-bad

因此,很容易将类的数量增加三倍topic-sentiment( ) 以容纳类似的评论

这张桌子结合了宜人的设计、脆弱的构造和中性色。

问题是为很多类构建模型需要大量的训练数据。IOW,您将需要手动注释大量评论 - 即使模型质量不太可能满足您的期望。

真正的自然语言处理

如果您确实需要处理多主题的句子,您可能需要考虑一种“更深入”的方法。

具体来说,看一下句子的解析树

  1. 将其拆分为组成短语
  2. 使用主题模型来识别每个短语的唯一主题
  3. 在短语上使用情感模型