解释前两个主成分中绘制的聚类

机器算法验证 r 聚类 数据可视化 主成分分析 克拉拉
2022-04-05 20:26:41

在此处输入图像描述

当我在 R 中绘制一个聚类对象时,我得到了这个图。如果我运行km <- clara(data, 2), 那么plot(km),我会得到一个类似的图。我们如何解释这个关于聚类的图?如果我有五个以上的集群,类似的图会有多大用处?更准确地说,主成分与集群有何关系?

1个回答

主成分是特征的组合。例如,假设您拥有由三个特征组成的人口统计数据:身高、体重和收入。然后,如果身高和体重高度相关,将它们组合成一个特征可能会很有用。主成分分析 (PCA) 通过加权线性组合完成此操作,因此您最终可能会得到一个特征:0.5*Height + 0.5* Weight。现在我们可能会发现收入完全独立于身高和体重,因此收入可能是发现的第二个主成分。

所以说 PCA 给了我们两个分量:Prin1=0.5*Height+0.5*Weight 和 Prin2=Income。您可以将数据集中的每个点映射到具有这两个维度的 2D 图,它可能看起来像上面的内容。

PCA 试图找到导致数据点之间最大分离的特征组合。这意味着,如果你的数据集中有另一个维度,比如年龄,它对所有成员都是相同的,那么在顶级主成分中将不会单独或组合考虑它。只有从数据点到数据点变化很大的特征才构成顶级主成分的一部分。因此,图上的点应该看起来彼此相距很远。

对数据集进行聚类时会发生什么?取决于输入的特征空间和使用的聚类算法。如果您使用上述 PCA 分析中发现的两个组件作为聚类算法的输入特征,那么一个体面的聚类算法应该将 2D 图上靠近的点放在同一个聚类中。无论找到的集群数量如何,都应该发生这种情况。如果您的聚类发现超过五个聚类,它们仍应由二维图上相对靠近的点组成。所以你可能会得到五个不同的圆圈,它们彼此有些分开。

在以下几种情况下,PCA 与集群的关系图可能没有意义:

a) 数据集中每个维度都有很多差异,因此查看前 2-3 个维度并不能真正为您提供太多信息。

b) 出于某种原因,聚类算法侧重于 PCA 认为不重要的特征。鉴于现有的聚类算法种类繁多,这可能会发生。

这是 PCA 的一个非常高级的视图。查看本教程以获得出色的可访问介绍。