众所周知,k-means 算法在存在异常值时会受到影响。k-means++是一种有效的聚类中心初始化方法。我正在浏览该方法的创始人 Sergei Vassilvitskii 和 David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28) 的 PPT,这表明集群中心初始化是不受异常值影响,如下所示。
根据 k-means++ 方法,最远的点更有可能是初始中心。这样,离群点(最右边的点)也必须是初始聚类质心。图的解释是什么?