PCA 和聚类混淆

数据挖掘 分类 数据挖掘 聚类 主成分分析
2022-02-20 04:57:38

我有一个与 K-Means 聚类和 PCA 相关的问题。在我的项目中,我有两个目标类 - 0 和 1 - 我试图将预测为 0 的记录分组到 5 个集群中。我严格使用 PCA 作为可视化技术,因为我的数据框有 8 个维度,我需要将其降低到 2-3 个维度才能看到集群。我的问题是关于我应该遵循的程序~

第一种方式:

  1. 提取 target = 0 的所有记录 
  2. 仅对这些记录执行 PCA 和 KMeans

第二种方式:

  1. 对所有记录执行 PCA(目标 = 0 和 1) 
  2. 提取目标 = 0 的 PCA 记录(来自步骤 1 中创建的 PCA 数据框)
  3. 在这些记录上做 KMeans

使用这两种方式的记录(目标 = 0)的 PCA1、PCA2、PCA3 值是不同的。而且由于 PCA 值不同,集群可视化的显示方式也不同。我应该遵循哪个选项?

非常感谢!

1个回答

我的答案是第二种选择

我认为 PCA 的用途是通过计算数据可变性最大的方向/轴来表示低维中的原始高维信息/数据。

在第一种情况下,您过滤标记为 0 的观测值,然后进行 PCA,这样 PCA 将根据较小版本的原始数据测量变异性,并且会制作与第二种情况不同的轴,在第二种情况下,PCA 将测量整个数据的变异性和因此在第二种情况下制作的轴可能不同。因此,在第一个选项中,您在 PCA 之后获得的数据集不是高维 0 标记观测值的正确表示。