数据挖掘 - K-Means 初始化 - 吾爱随笔录

K-Means 随机初始化质心，但还有其他初始化方法。在这篇论文中， http://ilpubs.stanford.edu:8090/778/1/ 2006-13.pdf，他们建议最初随机选择一个数据点，然后根据与初始质心的距离选择其他质心。

我的问题是：这如何给你正确的结果？说我的数据集群自然地分成三个集群，围绕 (x, y) 点 (1, 1)、(0, 0) 和 (-1, -1) 的嘈杂集群。假设我使用论文中的方法，最初选择一个数据点 (1.32, 0.98) 并将其标记为集群 #1 的中心。根据论文，我根据距离选择下一个质心，所以下一个点将在 (-1, -1) 附近。假设为集群 #2 选择的数据点是 (-1.12, -0.89)。前两个步骤是有道理的，但现在我继续集群 #3 并再次根据距离进行选择，因此我最终将另一个集群中心放置在非常靠近集群 #2 的中心的位置。我在这里想念什么？不应该根据与已经初始化的集群中心的距离总和来选择中心吗？

编辑：最初，我随机选择一个数据点标记为集群 #1 的中心。我选择红点。现在我计算红点和所有其他数据点之间的距离，并选择最远的点作为集群 #2 的中心。这是绿点。我的问题是：根据论文，我重复这一点并计算从红点到所有剩余点的距离，然后走最远的距离，但这让我回到了绿点附近，但我试图到达中心集群。