背景:我想根据一个城市的社会经济特征对一个城市的住宅区进行分组,包括住房单元密度、人口密度、绿地面积、房价、学校/保健中心/日托中心的数量等。我想了解住宅区可以分为多少个不同的组,它们有哪些独特的特点。这些信息可以促进城市规划。
基于一些例子(参见这篇博文:PCA and K-means Clustering of Delta Aircraft),我想出分析的方法是:
首先做PCA分析。
根据 PCA 结果确定唯一组(集群)的数量(例如,使用“肘部”方法,或者替代地,解释总方差的 80% 到 90% 的组件数量)。
确定聚类数后,应用 k-means 聚类进行分类。
我的问题:似乎 PCA 组件的数量与聚类分析有关。确实如此,例如,如果我们发现 5 个 PCA 组件解释了所有特征的 90% 以上的变化,那么我们将应用 k-means 聚类并获得 5 个聚类。那么这 5 个组是否与 PCA 分析中的 5 个组件完全对应?
换句话说,我想我的问题是:PCA 分析和 k-means 聚类之间有什么联系?
更新: 感谢 Emre、xeon 和 Kirill 的投入。所以目前的答案:
在聚类分析之前进行 PCA 对作为特征提取器的降维和可视化/显示聚类也很有用。
聚类后做PCA可以验证聚类算法(参考:核主成分分析)。
PCA 有时用于在聚类之前降低数据集的维数。然而,Yeung & Ruzzo (2000) 表明,使用 PC 而不是原始变量进行聚类并不一定会提高聚类质量。特别是,前几台 PC(包含数据中的大部分变化)不一定捕获大部分集群结构。
- Yeung、Ka Yee 和 Walter L. Ruzzo。用于聚类基因表达数据的主成分分析的实证研究。技术报告,华盛顿大学计算机科学与工程系,2000。(pdf)
在两步聚类分析之前,PCA 似乎是必要的。基于 Ibes (2015),其中使用 PCA 中确定的因素进行聚类分析。
- Ibes, Dorothy C.城市公园系统的多维分类和公平分析:一种新的方法和案例研究应用。 景观与城市规划,第 137 卷,2015 年 5 月,第 122-137 页。