数据挖掘 - 推文的情感分析（在标记数据集上训练模型并在其他一些未标记数据上使用） - 吾爱随笔录

我有大量关于特定主题的推文说“ABC”并且数据没有标记。我想对这些推文进行多类情感分析。我尝试了许多无监督聚类技术，如 Kmeans、DBScan、sklearn 的凝聚聚类，但我达到的最大轮廓分数为 0.31，并且 kmeans 给出了很大的负分。我已经使用 Bert 嵌入、Word2Vec 对推文进行了清理和编码，但似乎没有任何改变。

假设我使用了一些其他标记的多类数据集并构建了一个分类器，然后使用该分类器来识别我的目标数据中的情绪，它是否足够好？这种方法是否正确且合乎逻辑？

我找到了这些通用语音数据集。它们是否足以满足我为“ABC”推文数据集获取正确情绪的目的？

我发现这是另一个与推文相关的情感数据集。