我如何解释我的聚类结果?

数据挖掘 数据挖掘 聚类 无监督学习 k-均值 主成分分析
2021-09-26 05:51:24

来自 k-means 的 8 个集群 我正在研究一个聚类问题。我有 11 个功能。我的完整数据框有 70-80% 的零。数据有异常值,我将其限制在 0.5 和 0.95 个百分位数。但是,我在数据上尝试了 k-means (python) 并收到了一个非常不寻常的集群,它看起来像一个长方体。我不确定这个结果是否真的是一个集群还是出了什么问题?

我担心的主要原因是,为什么它看起来像一个长方体,为什么轴是正交的?

需要注意的一点是:我首先使用 PCA 将维度减少到二维并在同一维度上执行聚类,这里的图是在 2-dim PCA 数据上

编辑:我选择k在 python 中使用剪影索引。

1个回答

K-means 不会修改数据的底层结构。K-means 只会提供图表的“颜色”部分。

要回答为什么你会得到一个长方体的问题,这是因为你的基础数据是一个长方体。不一定是通过构建,但是当您限制数据时会发生这种情况。例如,看下面的代码:

X1 = c(rnorm(1000))
X2 = c(rnorm(1000))
q95_1 = quantile(X1,0.95)
q95_2 = quantile(X2,0.95)
q5_1 = quantile(X1,0.05)
q5_2 = quantile(X2,0.05)
X1[X1>q95_1]=q95_1
X2[X2>q95_2]=q95_2
X1[X1<q5_1]=q5_1
X2[X2<q5_2]=q5_2
plot(X1,X2)

该代码模拟两个随机高斯并将它们限制在 5% 和 95%。

这就是你得到的:

在此处输入图像描述

注意到方形图案了吗?这就是为什么你会得到一个 3D 的长方体。

Ps:我不禁要说,这就是您在没有正确查看变量的情况下进行 k-means 得到的结果(请参阅:在进行聚类之前,通过对特征(以及数据)进行探索性数据分析可以获得什么价值?对于一个无限循环)。