我有一个 yelp-review 数据集。我在 yelp-review 的文本列上做了一个 word2vector 嵌入。我正在使用无监督学习 K-means 和 PCA & TSNE 来可视化数据。我有 6 个分离良好的集群。现在我想为每个集群标签创建一个“词云”。有人可以给出一个想法如何做到这一点。谢谢你。
Word2vec 嵌入分析中的 K-Means 聚类
数据挖掘
Python
深度学习
词嵌入
2022-03-05 00:49:04
1个回答
要正确回答您的问题,有必要了解 PCA 轴的含义。
主成分是根据在多维向量中发现的线性相关性构建的。很难给它们一个正确的含义,它们只是从统计的角度来看是相关的,但是如果你看到它们的标签,你可以看到它们是否共享一个共同的领域(例如“吉他”和“钢琴”可能很接近到定义“声音”的主成分)。
另一方面,簇越集中,点之间的相关性越强,但您必须考虑它们与主成分轴的距离。
例如,如果有一个集中的簇正或负地非常接近 PC2 轴,但远离 PC1,这意味着它们与 PC2 高度相关,但与 PC1 没有相关性。
然后,如果 2 个簇相对于 0 是相反的,则它们都是反相关的。
如果 2 个簇相对于 0 成 90° 角,则它们没有相关性。
其它你可能感兴趣的问题