机器算法验证 - Calinski & Harabasz (CH) 标准的可接受值是多少？ - 吾爱随笔录

Calinski & Harabasz (CH) 标准的可接受值是多少？

机器算法验证 r 聚类面板数据

2022-02-09 03:34:20

我已经进行了数据分析，试图使用 R 和kml包对纵向数据进行聚类。我的数据包含大约 400 条单独的轨迹（如论文中所说）。你可以在下图中看到我的结果：

在此处输入图像描述

在阅读了相应论文中的第 2.2 章“选择最佳数量的集群”后，我没有得到任何答案。我更喜欢有 3 个集群，但结果仍然是好的，CH 为 80。实际上我什至不知道 CH 值代表什么。

所以我的问题是，Calinski & Harabasz (CH) 标准的可接受值是多少？

1个回答

有几件事是人们应该注意的。

像大多数内部聚类标准一样，Calinski-Harabasz 是一种启发式设备。使用它的正确方法是比较在相同数据上获得的聚类解决方案 - 解决方案因聚类数量或所使用的聚类方法而异。
没有“可接受的”截止值。您只需用肉眼比较 CH 值。值越高，“更好”的解决方案。如果在 CH 值的线图上出现一个解决方案给出一个峰值或至少一个突然的弯头，请选择它。相反，如果这条线是平滑的——水平的或上升的或下降的——那么就没有理由偏爱一种解决方案而不是其他解决方案。
CH 标准基于 ANOVA 思想。因此，这意味着聚类对象位于欧几里得尺度空间（不是序数或二元或名义）变量中。如果聚类的数据不是对象 X 变量，而是对象之间的相异矩阵，那么相异度量应该是（平方）欧几里德距离（或者，更糟糕的是，其他度量距离接近欧几里德距离的属性）。
CH 准则最适用于集群或多或少呈球形且中间紧凑的情况（例如正态分布） $^1$ . 在其他条件相同的情况下，CH 倾向于使用由大致相同数量的对象组成的集群的集群解决方案。

让我们观察一个例子。下面是作为 5 个正态分布的集群生成的数据散点图，这些集群彼此非常接近。

在此处输入图像描述

这些数据通过层次平均链接方法进行聚类，并保存了从 15-cluster 到 2-cluster 解决方案的所有集群解决方案（集群成员）。然后应用两个聚类标准来比较解决方案并选择“更好”的一个（如果有的话）。

在此处输入图像描述

Calinski-Harabasz 的地块在左边。我们看到——在这个例子中——CH 清楚地表明 5 集群解决方案（标记为 CLU5_1）是最好的解决方案。右侧是另一个聚类标准 C-Index（它不是基于 ANOVA 思想，其应用比 CH 更普遍）的图。对于 C-Index，较低的值表示“更好”的解决方案。如图所示，15 个集群的解决方案在形式上是最好的。但请记住，对于聚类标准，崎岖的地形在决策中比规模本身更重要。注意 5-cluster 解决方案有弯头；5 集群解决方案仍然相对较好，而 4 集群或 3 集群解决方案则急剧恶化。由于我们通常希望获得“具有更少集群的更好解决方案”，因此在 C-Index 测试下选择 5 集群解决方案似乎也是合理的。

PS 这篇文章还提出了一个问题，我们是否应该更多地信任聚类标准的实际最大值（或最小值），或者更确切地说是其值图的景观。

$^1$ 以后注意。不像写的那样。我对模拟数据集的探索让我相信，如果保持集群内总体方差和集群间质心分离相同，CH 不会偏好钟形分布而不是 platykurtic 分布（例如在球中）或圆形集群而不是椭圆形分布。然而，一个值得牢记的细微差别是，如果要求集群（像往常一样）在空间上不重叠，那么具有圆形集群的良好集群配置在实际实践中更容易遇到，因为具有类似椭圆集群的良好配置（ “铅笔盒”效果）；这与聚类标准的偏差无关。

内部聚类标准的概述以及如何使用它们。

其它你可能感兴趣的问题

上一篇倾向得分匹配 - 有什么问题？下一篇如何使用具有随机效应的序数逻辑回归？