k-means 聚类中的总 ss 和 ss 之间是什么意思?

机器算法验证 聚类
2022-03-25 06:36:36

我对聚类分析很陌生。我正在使用 R 进行 k-means 聚类,我想知道这些东西是什么。如果它们的比例更小或更大,什么更好?

1个回答

它基本上是对 k-means 发现的分类的好坏的衡量。SS 显然代表平方和,所以它是偏差“Between”和偏差“Within”中偏差的通常分解。理想情况下,您需要一个具有内部凝聚和外部分离特性的聚类,即 BSS/TSS 比率应接近 1。

例如,在 R 中:

data(iris)
km <- kmeans(iris[,1:4], 3)

给出了 88.4% (0.884) 的 BSS/TSS 比率,表明拟合良好。您应该小心谨慎,通常最好将 WSS 与集群数量进行对比,因为必须事先指定该数量。