Calinski-Harabasz 指数背后的直觉

机器算法验证 聚类 k-均值
2022-03-19 01:36:31

给定CH(k)=[B(k)/W(k)]×[(nk)/(k1)], 在哪里 n= # 数据点 k= # 个集群 W(k)= 在集群变异内 B(k)= 集群变化之间。

据我了解,在进行 k-means 或层次聚类时,CH 索引可以显示最佳聚类数;你会选择集群的数量k最大化CH(k). 作为k增加,B(k)增加,并且W(k)减少。

但是,有人可以向我解释公式第二部分背后的直觉,即[(nk)/(k1)]? 对于以下情况,这不是太惩罚了吗?n非常大,因为增加k减 1 会大幅减少整个学期?

1个回答

一些简单的直觉:[B(k)/(k1)]/[W(k)/(nk)]类似于 ANOVA 中的 F 比;B(k)W(k)是簇间和簇内的平方和k集群。

B(k)k1自由度,而W(k)nk自由程度。

作为k增长,如果这些集群实际上都来自同一个种群,B应该与k1W应该与nk.

因此,如果我们针对这些自由度进行缩放,它会将它们更多地放在相同的范围内(当然,除了聚类的有效性,这是索引试图衡量的内容)。