数据挖掘 - PCA 和聚类混淆 - 吾爱随笔录 - 问答

PCA 和聚类混淆

数据挖掘分类数据挖掘聚类主成分分析

2022-02-20 04:57:38

我有一个与 K-Means 聚类和 PCA 相关的问题。在我的项目中，我有两个目标类 - 0 和 1 - 我试图将预测为 0 的记录分组到 5 个集群中。我严格使用 PCA 作为可视化技术，因为我的数据框有 8 个维度，我需要将其降低到 2-3 个维度才能看到集群。我的问题是关于我应该遵循的程序~

第一种方式：

提取 target = 0 的所有记录
仅对这些记录执行 PCA 和 KMeans

第二种方式：

对所有记录执行 PCA（目标 = 0 和 1）
提取目标 = 0 的 PCA 记录（来自步骤 1 中创建的 PCA 数据框）
在这些记录上做 KMeans

使用这两种方式的记录（目标 = 0）的 PCA1、PCA2、PCA3 值是不同的。而且由于 PCA 值不同，集群可视化的显示方式也不同。我应该遵循哪个选项？

非常感谢！

1个回答

我的答案是第二种选择

我认为 PCA 的用途是通过计算数据可变性最大的方向/轴来表示低维中的原始高维信息/数据。

在第一种情况下，您过滤标记为 0 的观测值，然后进行 PCA，这样 PCA 将根据较小版本的原始数据测量变异性，并且会制作与第二种情况不同的轴，在第二种情况下，PCA 将测量整个数据的变异性和因此在第二种情况下制作的轴可能不同。因此，在第一个选项中，您在 PCA 之后获得的数据集不是高维 0 标记观测值的正确表示。

其它你可能感兴趣的问题

上一篇KNN Imputation 利用均值还是众数？下一篇建模价格与需求