数据挖掘 - K - 表示使用 PCA 减少的数据和原始数据的聚类有什么不同吗？ - 吾爱随笔录

我正在研究聚类，我有 90 个特征和 13500 个数据点，在删除了 pearson 相关性超过 90% 的相关变量后，我的特征空间减少到 70。此外，几乎所有我原来的 90 个特征都有很多值为零（超过 70-80% 的数据点）。我在算法实现方面所做的是：

通过基于剪影指数选择聚类数量，对具有 70 个特征（全部为数字）的原始数据进行 K-Means。
通过基于轮廓指数选择聚类数量将维度减少到 2 来运行 K-Means。

我观察到的和我相应的问题是：

pca 减少数据上的 K-Means 提供了更好的集群。有什么方法可以使用这个有意义的集群吗？就像将集群标签从 pca 减少的数据分配给原始数据
原始数据上的 K-Means 和 pca 简化数据上的 K-Means 有何不同？我知道 pca 会将数据减少到我选择的两个暗淡，并保留了具有最大方差的组件。但是我可以将 pca 缩减数据中的集群标签分配给原始数据吗？这是一个正确的方法吗？我猜不会。

此外，还有许多 K-Means 实现，例如 Lloyds (Python)、Elkan(Python)、Hartigan-Wong(R)、Forgy(R)、MacQueen(R)。其中哪一个可用于数值变量，哪一个可用于 categorical ？我认为，wong 用于不确定的分类变量。另外，我可以简单地排除哪些实现？