我有一个与 K-Means 聚类和 PCA 相关的问题。在我的项目中,我有两个目标类 - 0 和 1 - 我试图将预测为 0 的记录分组到 5 个集群中。我严格使用 PCA 作为可视化技术,因为我的数据框有 8 个维度,我需要将其降低到 2-3 个维度才能看到集群。我的问题是关于我应该遵循的程序~
第一种方式:
- 提取 target = 0 的所有记录
- 仅对这些记录执行 PCA 和 KMeans
第二种方式:
- 对所有记录执行 PCA(目标 = 0 和 1)
- 提取目标 = 0 的 PCA 记录(来自步骤 1 中创建的 PCA 数据框)
- 在这些记录上做 KMeans
使用这两种方式的记录(目标 = 0)的 PCA1、PCA2、PCA3 值是不同的。而且由于 PCA 值不同,集群可视化的显示方式也不同。我应该遵循哪个选项?
非常感谢!