我已经运行了 k-means 聚类。我还使用 R 中的以下代码绘制了结果:
library(cluster)
library(fpc)
km <- kmeans(Mydata,3)
clusplot(data, km$cluster, color=TRUE, shade=T, lines=0)
我不明白图中的“组件 1”和“组件 2”是什么。我也不知道“这两个组件解释了 46.78% 的点可变性”是什么意思。
有哪些成分?它们对理解集群数据有何帮助?
我已经运行了 k-means 聚类。我还使用 R 中的以下代码绘制了结果:
library(cluster)
library(fpc)
km <- kmeans(Mydata,3)
clusplot(data, km$cluster, color=TRUE, shade=T, lines=0)
我不明白图中的“组件 1”和“组件 2”是什么。我也不知道“这两个组件解释了 46.78% 的点可变性”是什么意思。
有哪些成分?它们对理解集群数据有何帮助?
这些是前两个主成分(参见主成分分析,PCA)。这个网站上有大量关于 PCA 的信息,包括百科全书主题,对你来说,这是我的简单解释。
因为数据可能是多变量的,所以检查所有许多双变量散点图可能很乏味。相反,一个“总结”散点图更方便,前两个(或可能是前三个)主要成分的散点图是从数据中得出的。“48.76% 的可变性”表示,对于您的数据,关于多变量数据的信息几乎有一半是由该组件 1 和 2 的图捕获的。如果您添加第三个组件 - 通过添加第三个轴或通过气泡散点图 - 解释变异性的百分比会更高,您可能会发现,右边的两个集群没有混合,并且在空间中更接近分离。
虽然通常您可以预期 1-2 或 1-2-3 分量散点图将展示单独的集群(如果有的话),但没有规则或保证会发生这种情况。有时,集群仅在捕获一小部分可变性的高维度(即“弱”组件)中显得不同。我建议您阅读本网站的这些和其他帖子:1、2、3。
您还应该知道,当 PCA 基于未缩放的变异性(“协方差”)和未缩放的变异性(“相关性”)时,主成分可能会完全不同。