我正在研究聚类,我有 90 个特征和 13500 个数据点,在删除了 pearson 相关性超过 90% 的相关变量后,我的特征空间减少到 70。此外,几乎所有我原来的 90 个特征都有很多值为零(超过 70-80% 的数据点)。我在算法实现方面所做的是:
- 通过基于剪影指数选择聚类数量,对具有 70 个特征(全部为数字)的原始数据进行 K-Means。
- 通过基于轮廓指数选择聚类数量将维度减少到 2 来运行 K-Means。
我观察到的和我相应的问题是:
- pca 减少数据上的 K-Means 提供了更好的集群。有什么方法可以使用这个有意义的集群吗?就像将集群标签从 pca 减少的数据分配给原始数据
- 原始数据上的 K-Means 和 pca 简化数据上的 K-Means 有何不同?我知道 pca 会将数据减少到我选择的两个暗淡,并保留了具有最大方差的组件。但是我可以将 pca 缩减数据中的集群标签分配给原始数据吗?这是一个正确的方法吗?我猜不会。
此外,还有许多 K-Means 实现,例如 Lloyds (Python)、Elkan(Python)、Hartigan-Wong(R)、Forgy(R)、MacQueen(R)。其中哪一个可用于数值变量,哪一个可用于 categorical ?我认为,wong 用于不确定的分类变量。另外,我可以简单地排除哪些实现?