我有大量关于特定主题的推文说“ABC”并且数据没有标记。我想对这些推文进行多类情感分析。我尝试了许多无监督聚类技术,如 Kmeans、DBScan、sklearn 的凝聚聚类,但我达到的最大轮廓分数为 0.31,并且 kmeans 给出了很大的负分。我已经使用 Bert 嵌入、Word2Vec 对推文进行了清理和编码,但似乎没有任何改变。
假设我使用了一些其他标记的多类数据集并构建了一个分类器,然后使用该分类器来识别我的目标数据中的情绪,它是否足够好?这种方法是否正确且合乎逻辑?
我找到了这些通用语音数据集。它们是否足以满足我为“ABC”推文数据集获取正确情绪的目的?
我发现这是另一个与推文相关的情感数据集。