K均值聚类算法的说明及其分析

数据挖掘 机器学习 聚类 k-均值
2022-02-18 14:57:40

上面显示了应用于数据点的 K-Means 聚类算法。

我不明白圆圈点是如何分配给集群 c2 而不是 c1 的。据我了解,这些点被分配给(最近的?)质心,以最小化平方距离,即最小化分配成本。

在视觉上,在我看来,圆圈点属于第一个集群。

如果我错了,请纠正我。

来源 - http://www.cs.yale.edu/homes/el327/papers/OnlineKMeansAlenexEdoLiberty.pdf

3个回答

K-means 是一种迭代算法。因此,您在图片中所拥有的可能是早期迭代之一,因此距离平方和(点和簇之间)尚未最小化。在进一步的迭代中,圆圈中的点确实会分配给聚类质心 C1。

现在,话虽如此,这纯粹是推测,但如果你的图片中的图表不仅仅是我们解释的二维,而是实际上是来自更高维特征空间的二维投影,那么实际上圆圈在那个高维空间中,点可能更接近质心 C2(尽管它在 2-d 中看起来不像)。

K-means 簇总是凸的。

即使没有收敛。

这在这里不成立,因此该幻灯片没有正确描述 k-means。这可能是一组糟糕的幻灯片有很多关于聚类的非常糟糕的幻灯片。

是的,我不认为这是 k-means 的最终结果。K-means 是一个迭代过程,涉及计算质心并将点与聚类相关联。我认为图片显示了重新计算质心但尚未对新质心进行关联时的过程状态。