机器算法验证 - 确定集群数量的肘部标准 - 吾爱随笔录

确定集群数量的肘部标准

机器算法验证聚类 k-均值

2022-03-15 20:35:00

这里提到，确定数据集中最佳聚类数的方法之一是“肘法”。在这里，方差百分比计算为组间方差与总方差的比率。

我很难理解这个计算。谁能解释如何计算表示为特征矩阵的数据集的方差百分比，其中是特征维度，是数据点的数量. 我使用 k-means 算法进行聚类。 $F \in \mathbf{R}^{m \times n}$ $m$ $n$

1个回答

k-means 算法的基本思想是尝试找到使簇内方差最小化的簇（或相应的平方和或 SS 达到一个常数），这相当于使簇间 SS 最大化，因为总方差为固定的。如 wiki 上所述，您可以直接使用 inside SS 并在增加集群数量时查看其变化（就像我们在使用 screeplot 的因子分析中所做的那样）：SS 演变方式的突然变化暗示了最佳解决方案，尽管这仅代表视觉欣赏。由于总方差是固定的，因此相当于研究了 SS 与总 SS 之间的比率，也称为解释方差的百分比，是如何演变的，因为在这种情况下，它将呈现从一个 k 到下一个 k 的很大差距+1。

总而言之，您只需计算每个数据点与其各自中心（或质心）之间的平方距离，对于每个集群——这给了你 SS 内，SS 内的总数只是特定于集群的总和WSS（将它们转换为方差只是除以相应的自由度的问题）；SS 之间的值是通过从总 SS 中减去总 WSS 获得的，后者是通过例如考虑 k=1 获得的。

顺便说一下，k=1，WSS=TSS，BSS=0。

如果您在确定集群的数量或使用 k-means 停止的位置之后，您可能会考虑将 Gap 统计量作为肘部标准的替代方案：

Tibshirani, R.、Walther, G. 和 Hastie, T. (2001)。通过 gap statistic 估计数据集中的簇数。JR统计学家。社会党。B，63（2）：411-423。

其它你可能感兴趣的问题

上一篇决策树空间与随机森林的 MCMC 采样下一篇如何将两个时间序列与间隙和不同的时间基准相关联？