机器算法验证 - 解释前两个主成分中绘制的聚类 - 吾爱随笔录

解释前两个主成分中绘制的聚类

机器算法验证 r 聚类数据可视化主成分分析克拉拉

2022-04-05 20:26:41

在此处输入图像描述

当我在 R 中绘制一个聚类对象时，我得到了这个图。如果我运行km <- clara(data, 2), 那么plot(km)，我会得到一个类似的图。我们如何解释这个关于聚类的图？如果我有五个以上的集群，类似的图会有多大用处？更准确地说，主成分与集群有何关系？

1个回答

主成分是特征的组合。例如，假设您拥有由三个特征组成的人口统计数据：身高、体重和收入。然后，如果身高和体重高度相关，将它们组合成一个特征可能会很有用。主成分分析 (PCA) 通过加权线性组合完成此操作，因此您最终可能会得到一个特征：0.5*Height + 0.5* Weight。现在我们可能会发现收入完全独立于身高和体重，因此收入可能是发现的第二个主成分。

所以说 PCA 给了我们两个分量：Prin1=0.5*Height+0.5*Weight 和 Prin2=Income。您可以将数据集中的每个点映射到具有这两个维度的 2D 图，它可能看起来像上面的内容。

PCA 试图找到导致数据点之间最大分离的特征组合。这意味着，如果你的数据集中有另一个维度，比如年龄，它对所有成员都是相同的，那么在顶级主成分中将不会单独或组合考虑它。只有从数据点到数据点变化很大的特征才构成顶级主成分的一部分。因此，图上的点应该看起来彼此相距很远。

对数据集进行聚类时会发生什么？取决于输入的特征空间和使用的聚类算法。如果您使用上述 PCA 分析中发现的两个组件作为聚类算法的输入特征，那么一个体面的聚类算法应该将 2D 图上靠近的点放在同一个聚类中。无论找到的集群数量如何，都应该发生这种情况。如果您的聚类发现超过五个聚类，它们仍应由二维图上相对靠近的点组成。所以你可能会得到五个不同的圆圈，它们彼此有些分开。

在以下几种情况下，PCA 与集群的关系图可能没有意义：

a) 数据集中每个维度都有很多差异，因此查看前 2-3 个维度并不能真正为您提供太多信息。

b) 出于某种原因，聚类算法侧重于 PCA 认为不重要的特征。鉴于现有的聚类算法种类繁多，这可能会发生。

这是 PCA 的一个非常高级的视图。查看本教程以获得出色的可访问介绍。

其它你可能感兴趣的问题

上一篇问卷中的项目顺序下一篇星坐标与主成分分析