如何解释层次聚类分析的树状图

机器算法验证 解释 层次聚类 树状图
2022-01-18 23:00:21

考虑下面的 R 示例:

plot( hclust(dist(USArrests), "ave") )
  1. y轴“高度”到底是什么意思?

  2. 看看北卡罗来纳州和加利福尼亚州(位于左侧)。加利福尼亚比亚利桑那“更接近”北卡罗来纳州吗?我可以做出这样的解释吗?

  3. 夏威夷(右)很晚才加入该集群。我可以看到这一点,因为它比其他州“更高”。一般来说,我如何正确解释树状图中标签“更高”或“更低”的事实?

在此处输入图像描述

3个回答

当我尝试学习层次聚类时,我遇到了同样的问题,我发现以下 pdf 非常有用。

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

即使理查德已经很清楚这个程序,其他浏览问题的人也可能会使用 pdf,它非常简单明了,尤其是对于那些没有足够数学背景的人来说。

1) y 轴衡量单个数据点或集群的接近程度。

2) 加利福尼亚州和亚利桑那州与佛罗里达州的距离相等,因为 CA 和 AZ 在任何一个加入 FL 之前都在一个集群中。

3) 夏威夷加入的时间很晚;大约为 50。这意味着它加入的集群在 HI 加入之前更靠近。但也不是很近。请注意,它加入的集群(一直在右侧)仅在大约 45 处形成。HI 加入集群的时间晚于任何其他状态这一事实仅仅意味着(使用您选择的任何指标)HI 并不接近任何特定的状态。

水平轴代表集群。树状图上的垂直刻度表示距离或相异度。两个集群的每个连接(融合)在图表上通过将一条垂直线分成两条垂直线来表示。拆分的垂直位置(由短条显示)给出了两个集群之间的距离(相异性)。