推文的情感分析(在标记数据集上训练模型并在其他一些未标记数据上使用)

数据挖掘 分类 nlp 聚类 无监督学习 情绪分析
2022-02-17 21:55:10

我有大量关于特定主题的推文说“ABC”并且数据没有标记。我想对这些推文进行多类情感分析。我尝试了许多无监督聚类技术,如 Kmeans、DBScan、sklearn 的凝聚聚类,但我达到的最大轮廓分数为 0.31,并且 kmeans 给出了很大的负分。我已经使用 Bert 嵌入、Word2Vec 对推文进行了清理和编码,但似乎没有任何改变。

假设我使用了一些其他标记的多类数据集并构建了一个分类器,然后使用该分类器来识别我的目标数据中的情绪,它是否足够好?这种方法是否正确且合乎逻辑?

我找到了这些通用语音数据集。它们是否足以满足我为“ABC”推文数据集获取正确情绪的目的?

我发现是另一个与推文相关的情感数据集。

2个回答

自然的方法是使用标记数据集和监督学习技术。您可以从简单的事情开始,例如使用 tf-idf 进行特征生成并训练一个简单的逻辑回归模型。

我认为这是你应该尝试的第一件事,我认为它比无监督技术更有可能成功,而且很简单。

更好的方法肯定是监督学习模型。您有两种选择:

(1) 您可以尝试使用在另一个情感案例(如电影或餐厅评论)上训练的转换器模型。首先,您可以尝试该模型如何适用于您的用例,然后使用它来标记未标记的数据。

(2) 或者您可以自己标记一些推文(例如 100-200),然后在此数据上微调另一个情绪转换器模型。如果您从头开始,那么您需要标记的数据要少得多。