Calinski & Harabasz (CH) 标准的可接受值是多少?

机器算法验证 r 聚类 面板数据
2022-02-09 03:34:20

我已经进行了数据分析,试图使用 R 和kml包对纵向数据进行聚类。我的数据包含大约 400 条单独的轨迹(如论文中所说)。你可以在下图中看到我的结果:

在此处输入图像描述

在阅读了相应论文中的第 2.2 章“选择最佳数量的集群”后,我没有得到任何答案。我更喜欢有 3 个集群,但结果仍然是好的,CH 为 80。实际上我什至不知道 CH 值代表什么。

所以我的问题是,Calinski & Harabasz (CH) 标准的可接受值是多少?

1个回答

有几件事是人们应该注意的。

  • 像大多数内部聚类标准一样,Calinski-Harabasz 是一种启发式设备。使用它的正确方法是比较在相同数据上获得的聚类解决方案 - 解决方案因聚类数量或所使用的聚类方法而异。

  • 没有“可接受的”截止值。您只需用肉眼比较 CH 值。值越高,“更好”的解决方案。如果在 CH 值的线图上出现一个解决方案给出一个峰值或至少一个突然的弯头,请选择它。相反,如果这条线是平滑的——水平的或上升的或下降的——那么就没有理由偏爱一种解决方案而不是其他解决方案。

  • CH 标准基于 ANOVA 思想。因此,这意味着聚类对象位于欧几里得尺度空间(不是序数或二元或名义)变量中。如果聚类的数据不是对象 X 变量,而是对象之间的相异矩阵,那么相异度量应该是(平方)欧几里德距离(或者,更糟糕的是,其他度量距离接近欧几里德距离的属性)。

  • CH 准则最适用于集群或多或少呈球形且中间紧凑的情况(例如正态分布)1. 在其他条件相同的情况下,CH 倾向于使用由大致相同数量的对象组成的集群的集群解决方案。

让我们观察一个例子。下面是作为 5 个正态分布的集群生成的数据散点图,这些集群彼此非常接近。

在此处输入图像描述

这些数据通过层次平均链接方法进行聚类,并保存了从 15-cluster 到 2-cluster 解决方案的所有集群解决方案(集群成员)。然后应用两个聚类标准来比较解决方案并选择“更好”的一个(如果有的话)。

在此处输入图像描述

Calinski-Harabasz 的地块在左边。我们看到——在这个例子中——CH 清楚地表明 5 集群解决方案(标记为 CLU5_1)是最好的解决方案。右侧是另一个聚类标准 C-Index(它不是基于 ANOVA 思想,其应用比 CH 更普遍)的图。对于 C-Index,较低的值表示“更好”的解决方案。如图所示,15 个集群的解决方案在形式上是最好的。但请记住,对于聚类标准,崎岖的地形在决策中比规模本身更重要。注意 5-cluster 解决方案有弯头;5 集群解决方案仍然相对较好,而 4 集群或 3 集群解决方案则急剧恶化。由于我们通常希望获得“具有更少集群的更好解决方案”,因此在 C-Index 测试下选择 5 集群解决方案似乎也是合理的。

PS 这篇文章还提出了一个问题,我们是否应该更多地信任聚类标准的实际最大值(或最小值),或者更确切地说是其值图的景观。


1 以后注意不像写的那样。我对模拟数据集的探索让我相信,如果保持集群内总体方差和集群间质心分离相同,CH 不会偏好钟形分布而不是 platykurtic 分布(例如在球中)或圆形集群而不是椭圆形分布。然而,一个值得牢记的细微差别是,如果要求集群(像往常一样)在空间上不重叠,那么具有圆形集群的良好集群配置在实际实践中更容易遇到,因为具有类似椭圆集群的良好配置( “铅笔盒”效果);这与聚类标准的偏差无关。

内部聚类标准的概述以及如何使用它们