Calinski & Harabasz (CH) 标准的可接受值是多少?
有几件事是人们应该注意的。
像大多数内部聚类标准一样,Calinski-Harabasz 是一种启发式设备。使用它的正确方法是比较在相同数据上获得的聚类解决方案 - 解决方案因聚类数量或所使用的聚类方法而异。
没有“可接受的”截止值。您只需用肉眼比较 CH 值。值越高,“更好”的解决方案。如果在 CH 值的线图上出现一个解决方案给出一个峰值或至少一个突然的弯头,请选择它。相反,如果这条线是平滑的——水平的或上升的或下降的——那么就没有理由偏爱一种解决方案而不是其他解决方案。
CH 标准基于 ANOVA 思想。因此,这意味着聚类对象位于欧几里得尺度空间(不是序数或二元或名义)变量中。如果聚类的数据不是对象 X 变量,而是对象之间的相异矩阵,那么相异度量应该是(平方)欧几里德距离(或者,更糟糕的是,其他度量距离接近欧几里德距离的属性)。
CH 准则最适用于集群或多或少呈球形且中间紧凑的情况(例如正态分布). 在其他条件相同的情况下,CH 倾向于使用由大致相同数量的对象组成的集群的集群解决方案。
让我们观察一个例子。下面是作为 5 个正态分布的集群生成的数据散点图,这些集群彼此非常接近。
这些数据通过层次平均链接方法进行聚类,并保存了从 15-cluster 到 2-cluster 解决方案的所有集群解决方案(集群成员)。然后应用两个聚类标准来比较解决方案并选择“更好”的一个(如果有的话)。
Calinski-Harabasz 的地块在左边。我们看到——在这个例子中——CH 清楚地表明 5 集群解决方案(标记为 CLU5_1)是最好的解决方案。右侧是另一个聚类标准 C-Index(它不是基于 ANOVA 思想,其应用比 CH 更普遍)的图。对于 C-Index,较低的值表示“更好”的解决方案。如图所示,15 个集群的解决方案在形式上是最好的。但请记住,对于聚类标准,崎岖的地形在决策中比规模本身更重要。注意 5-cluster 解决方案有弯头;5 集群解决方案仍然相对较好,而 4 集群或 3 集群解决方案则急剧恶化。由于我们通常希望获得“具有更少集群的更好解决方案”,因此在 C-Index 测试下选择 5 集群解决方案似乎也是合理的。
PS 这篇文章还提出了一个问题,我们是否应该更多地信任聚类标准的实际最大值(或最小值),或者更确切地说是其值图的景观。
以后注意。不像写的那样。我对模拟数据集的探索让我相信,如果保持集群内总体方差和集群间质心分离相同,CH 不会偏好钟形分布而不是 platykurtic 分布(例如在球中)或圆形集群而不是椭圆形分布。然而,一个值得牢记的细微差别是,如果要求集群(像往常一样)在空间上不重叠,那么具有圆形集群的良好集群配置在实际实践中更容易遇到,因为具有类似椭圆集群的良好配置( “铅笔盒”效果);这与聚类标准的偏差无关。