确定集群数量的肘部标准

机器算法验证 聚类 k-均值
2022-03-15 20:35:00

这里提到,确定数据集中最佳聚类数的方法之一是“肘法”。在这里,方差百分比计算为组间方差与总方差的比率。

我很难理解这个计算。谁能解释如何计算表示为特征矩阵的数据集的方差百分比,其中是特征维度,是数据点的数量. 我使用 k-means 算法进行聚类。FRm×nmn

1个回答

k-means 算法的基本思想是尝试找到使簇内方差最小化的簇(或相应的平方和或 SS 达到一个常数),这相当于使簇间 SS 最大化,因为总方差为固定的。如 wiki 上所述,您可以直接使用 inside SS 并在增加集群数量时查看其变化(就像我们在使用 screeplot 的因子分析中所做的那样):SS 演变方式的突然变化暗示了最佳解决方案,尽管这仅代表视觉欣赏。由于总方差是固定的,因此相当于研究了 SS 与总 SS 之间的比率,也称为解释方差的百分比,是如何演变的,因为在这种情况下,它将呈现从一个 k 到下一个 k 的很大差距+1。

总而言之,您只需计算每个数据点与其各自中心(或质心)之间的平方距离,对于每个集群——这给了你 SS 内,SS 内的总数只是特定于集群的总和WSS(将它们转换为方差只是除以相应的自由度的问题);SS 之间的值是通过从总 SS 中减去总 WSS 获得的,后者是通过例如考虑 k=1 获得的。

顺便说一下,k=1,WSS=TSS,BSS=0。

如果您在确定集群的数量或使用 k-means 停止的位置之后,您可能会考虑将 Gap 统计量作为肘部标准的替代方案:

Tibshirani, R.、Walther, G. 和 Hastie, T. (2001)。通过 gap statistic 估计数据集中的簇数JR统计学家。社会党。B,63(2):411-423。