这篇著名的论文指出,任何基于平方误差的聚类方法(K 表示最常见的例子)都倾向于生成超球面聚类。但是,它并没有指出理论上的合理性。
我想知道: 1. 这种观察是否有理论依据。2.如果可以改变K-Means算法生成矩形簇。
这篇著名的论文指出,任何基于平方误差的聚类方法(K 表示最常见的例子)都倾向于生成超球面聚类。但是,它并没有指出理论上的合理性。
我想知道: 1. 这种观察是否有理论依据。2.如果可以改变K-Means算法生成矩形簇。
好吧,从数学上讲,k-means 簇不是球形的,而是Voronoi 细胞。
但是,该声明并非无效,因为实际数据通常不会填满整个单元格,但如果您采用数据的凸包,它确实在本质上有点球形。
原因可能是当最小化方差(并且 k-means 最小化簇内方差,也就是平方和)时,您确实也最小化了欧几里得距离:平方欧几里得距离是平方和。而且由于平方根不会改变排序(它是单调的!),k-means 的分配规则肯定更喜欢球形簇,隐含地更喜欢欧几里得距离分配。
是的,k-means 可以改变。然后使用具有最大范数的 k-medoids/PAM(不要只是交换范数 - 您可能会失去收敛性。K-medoids/PAM 保证以任意距离收敛!)
尽管如此,结果不会强制执行矩形的簇。它们仍可能以意想不到的方式重叠。结果可能看起来像这样(实际上,旋转了 45 度,但显然这并没有太大改变性质 - 强烈偏好 45 度角):

这是人们可能认为 k 表示超球面的一种方式。一个点属于以为中心的簇,如果存在半径使得属于以为中心、半径为的球,但不属于以任何 c' 为中心. 这意味着,直观地说,集群通过在球体中环顾四周来吞噬点。正如在别处所指出的,这并不意味着集群的形状是一个球体,但这是我们为集群中的成员进行离散截止这一事实的产物。如果将未离散的成员分数(基本上只是距离)视为真正感兴趣的度量,那么集群看起来就像一个球,因为所有点的集合至少为 “像”一个集群中心是一个球。