机器算法验证 - Calinski-Harabasz 指数背后的直觉 - 吾爱随笔录

机器算法验证聚类 k-均值

2022-03-19 01:36:31

给定 $CH(k) = [B(k) / W(k) ] \times [(n-k)/(k-1)]$ ，在哪里 $n$ = # 数据点 $k$ = # 个集群 $W(k)$ = 在集群变异内 $B(k)$ = 集群变化之间。

据我了解，在进行 k-means 或层次聚类时，CH 索引可以显示最佳聚类数；你会选择集群的数量 $k$ 最大化 $CH(k)$ . 作为 $k$ 增加， $B(k)$ 增加，并且 $W(k)$ 减少。

但是，有人可以向我解释公式第二部分背后的直觉，即 $[(n-k) / (k-1)]$ ? 对于以下情况，这不是太惩罚了吗？ $n$ 非常大，因为增加 $k$ 减 1 会大幅减少整个学期？

1个回答

一些简单的直觉： $[B(k)/(k-1)]/[W(k)/(n-k)]$ 类似于 ANOVA 中的 F 比； $B(k)$ 和 $W(k)$ 是簇间和簇内的平方和 $k$ 集群。

$B(k)$ 有 $k-1$ 自由度，而 $W(k)$ 有 $n-k$ 自由程度。

作为 $k$ 增长，如果这些集群实际上都来自同一个种群， $B$ 应该与 $k-1$ 和 $W$ 应该与 $n-k$ .

因此，如果我们针对这些自由度进行缩放，它会将它们更多地放在相同的范围内（当然，除了聚类的有效性，这是索引试图衡量的内容）。

其它你可能感兴趣的问题