我想在 PCA 降维后应用 Kmean 进行聚类。我在 PCA 之前使用 StandardScaler 对数据进行了标准化,然后我想训练 Kmeans 来查找集群。但是,PCA 组件之间的差异不可能是相同的数量级。
在聚类之前标准化 PCA 组件是一个好习惯吗?
我想在 PCA 降维后应用 Kmean 进行聚类。我在 PCA 之前使用 StandardScaler 对数据进行了标准化,然后我想训练 Kmeans 来查找集群。但是,PCA 组件之间的差异不可能是相同的数量级。
在聚类之前标准化 PCA 组件是一个好习惯吗?
通常 PCA 已经返回标准化组件。
您是否计算了每个组件的方差?通常,它将是 1。
更棘手的问题是在进行 PCA之前是否使用标准化。我不认为有一个普遍的答案。
如果您用于 k-Means 聚类的变量在不同的尺度上,则具有较高方差的变量将通过驱动k个质心的收敛来主导算法。
根据您的研究目标,这是您可以允许的吗?相反,如果您希望所有因素在聚类中具有相同的权重,那么您应该对它们进行缩放。