用于 Kmean 聚类的 PCA 之后的标准化

数据挖掘 聚类 k-均值 无监督学习 主成分分析
2022-02-21 17:02:48

我想在 PCA 降维后应用 Kmean 进行聚类。我在 PCA 之前使用 StandardScaler 对数据进行了标准化,然后我想训练 Kmeans 来查找集群。但是,PCA 组件之间的差异不可能是相同的数量级。

在聚类之前标准化 PCA 组件是一个好习惯吗?

2个回答

通常 PCA 已经返回标准化组件。

您是否计算了每个组件的方差?通常,它将是 1。

更棘手的问题是在进行 PCA之前是否使用标准化。我不认为有一个普遍的答案。

如果您用于 k-Means 聚类的变量在不同的尺度上,则具有较高方差的变量将通过驱动k个质心的收敛来主导算法。

根据您的研究目标,这是您可以允许的吗?相反,如果您希望所有因素在聚类中具有相同的权重,那么您应该对它们进行缩放。