给定, 在哪里 = # 数据点 = # 个集群 = 在集群变异内 = 集群变化之间。
据我了解,在进行 k-means 或层次聚类时,CH 索引可以显示最佳聚类数;你会选择集群的数量最大化. 作为增加,增加,并且减少。
但是,有人可以向我解释公式第二部分背后的直觉,即? 对于以下情况,这不是太惩罚了吗?非常大,因为增加减 1 会大幅减少整个学期?
给定, 在哪里 = # 数据点 = # 个集群 = 在集群变异内 = 集群变化之间。
据我了解,在进行 k-means 或层次聚类时,CH 索引可以显示最佳聚类数;你会选择集群的数量最大化. 作为增加,增加,并且减少。
但是,有人可以向我解释公式第二部分背后的直觉,即? 对于以下情况,这不是太惩罚了吗?非常大,因为增加减 1 会大幅减少整个学期?
一些简单的直觉:类似于 ANOVA 中的 F 比;和是簇间和簇内的平方和集群。
有自由度,而有自由程度。
作为增长,如果这些集群实际上都来自同一个种群,应该与和应该与.
因此,如果我们针对这些自由度进行缩放,它会将它们更多地放在相同的范围内(当然,除了聚类的有效性,这是索引试图衡量的内容)。