K 均值的超球面性质(和其他平方误差聚类方法)

机器算法验证 聚类 k-均值
2022-04-05 12:18:28

这篇著名的论文指出,任何基于平方误差的聚类方法(K 表示最常见的例子)都倾向于生成超球面聚类。但是,它并没有指出理论上的合理性。

我想知道: 1. 这种观察是否有理论依据。2.如果可以改变K-Means算法生成矩形簇。

2个回答

好吧,从数学上讲,k-means 簇不是球形的,而是Voronoi 细胞

但是,该声明并非无效,因为实际数据通常不会填满整个单元格,但如果您采用数据的凸包,它确实在本质上有点球形。

原因可能是当最小化方差(并且 k-means 最小化簇内方差,也就是平方和)时,您确实也最小化了欧几里得距离:平方欧几里得距离平方和。而且由于平方根不会改变排序(它是单调的!),k-means 的分配规则肯定更喜欢球形簇,隐含地更喜欢欧几里得距离分配。

是的,k-means 可以改变。然后使用具有最大范数的 k-medoids/PAM(不要只是交换范数 - 您可能会失去收敛性。K-medoids/PAM 保证以任意距离收敛!)

尽管如此,结果不会强制执行矩形的簇。它们仍可能以意想不到的方式重叠。结果可能看起来像这样(实际上,旋转了 45 度,但显然这并没有太大改变性质 - 强烈偏好 45 度角):

L1 Voronoi 形状(最大范数本质上应该相似)

这是人们可能认为 k 表示超球面的一种方式。一个点属于以为中心的簇,如果存在半径使得属于以为中心、半径为的球,但不属于以任何 c' 为中心xcCENTERSrxcrrccCENTERS. 这意味着,直观地说,集群通过在球体中环顾四周来吞噬点。正如在别处所指出的,这并不意味着集群的形状是一个球体,但这是我们为集群中的成员进行离散截止这一事实的产物。如果将未离散的成员分数(基本上只是距离)视为真正感兴趣的度量,那么集群看起来就像一个球,因为所有点的集合至少为 “像”一个集群中心是一个球。L2l