如果您将样本随机分成 5 个子样本,您的 5 个均值几乎会重合。将如此接近的点作为初始集群中心有什么意义?
在许多 K-means 实现中,初始聚类中心的默认选择是基于相反的想法:找到相距最远的 5 个点并将它们作为初始中心。您可能会问,找到那些相距甚远的点的方法可能是什么?以下是 SPSS 的 K-means 正在为此做的事情:
取数据集中任意k个事例(点)作为初始中心。正在检查所有其余案例是否有能力通过以下条件替代初始中心:
- a) 如果箱子离最靠近它的中心的距离比两个最接近的中心之间的距离更远,则箱子用它更接近的后两个中心代替。
- b) 如果案例离第二个最近的中心比离它最近的中心和最靠近后一个中心的中心之间的距离更远,则案例替换离它最近的中心。
如果条件(a)不满足,则检查条件(b);如果不满足,则案件不会成为中心。作为这种遍历案例的结果,我们在云中获得了k个最大案例,这些案例成为初始中心。该算法的结果虽然足够稳健,但对“任意k个案例”的起始选择和数据集中案例的排序顺序并非完全不敏感;因此,仍然欢迎进行几次随机启动尝试,就像K-means 一样。
请参阅我的答案以及 k-means 的流行初始化方法列表。拆分成随机子样本的方法(我和其他人在这里批评)以及 SPSS 使用的描述的方法 - 也在列表中。