如何结合稀疏文本特征和用户微笑进行情感分类?

数据挖掘 分类 情绪分析 nlp
2022-02-24 07:10:11

我正在尝试执行情感分类任务,其中我有一些文本和一些关于用户是否微笑的信息。现在,当我使用 count-vectorizer 将我的文本转换为特征集(词袋)方法时,它会产生超过 5000 个特征。当我在这 5000 个特征中添加微笑时,特征总数变为 5001。但是,我没有看到分类准确度有任何提高。我认为 5000 个稀疏特征主导了唯一的微笑特征。因此对分类没有影响。谁能推荐,将文本特征与微笑、韵律或其他特征合并的好方法是什么?

1个回答

如果您使用的是 RNN 并且 5000 个特征指的是您的字典的大小,我建议您考虑嵌入您的单词,例如word2vec然后,每个单词都会产生一个 200-300 大小的向量,您可以将单个微笑特征连接到该向量,然后通过您的 RNN 运行它。

如果这没有多大作用,您可以通过 RNN 运行嵌入的文本,然后获取结果(假设每个时间步长 10-20 个特征)并连接微笑特征,然后通过第二个 RNN 运行这些特征。这个想法是第一个是随着时间的推移进一步压缩,第二个是你的“最终”RNN,它在更高的抽象级别上工作。

一般来说,这是一个将高维特征集与低维特征集相结合的经典案例,有很多方法,问题是什么时候加入特征。看看这篇论文,它涵盖了关于多模态特征的一些想法,也就是何时以及如何合并它们(图 3.2),尽管我认为它更有指导意义而不是有用,因为它们的特征比你所拥有的更丰富单个附加功能。

要尝试的另一件事是软化“微笑”功能,如果它还没有,也就是如果它是 0 或 1,则分别将其设为随机 (0, 0.1) 和 (0.9, 1)。