Word2vec 嵌入分析中的 K-Means 聚类

数据挖掘 Python 深度学习 词嵌入
2022-03-05 00:49:04

我有一个 yelp-review 数据集。我在 yelp-review 的文本列上做了一个 word2vector 嵌入。我正在使用无监督学习 K-means 和 PCA & TSNE 来可视化数据。我有 6 个分离良好的集群。现在我想为每个集群标签创建一个“词云”。有人可以给出一个想法如何做到这一点。谢谢你。

1个回答

要正确回答您的问题,有必要了解 PCA 轴的含义。

主成分是根据在多维向量中发现的线性相关性构建的。很难给它们一个正确的含义,它们只是从统计的角度来看是相关的,但是如果你看到它们的标签,你可以看到它们是否共享一个共同的领域(例如“吉他”和“钢琴”可能很接近到定义“声音”的主成分)。

另一方面,簇越集中,点之间的相关性越强,但您必须考虑它们与主成分轴的距离。

例如,如果有一个集中的簇正或负地非常接近 PC2 轴,但远离 PC1,这意味着它们与 PC2 高度相关,但与 PC1 没有相关性。

然后,如果 2 个簇相对于 0 是相反的,则它们都是反相关的。

如果 2 个簇相对于 0 成 90° 角,则它们没有相关性。