我想知道如何用余弦距离实现 k-means++,根据下面的引用(维基百科),它说,距离需要平方。但是在我的理解中,正方形失去了距离的方向,这真的很重要。
cos_dist(x,y) = -1 => (-1)^2 = 1
- 在数据点中均匀随机选择一个中心。
- 对于尚未选择的每个数据点 x,计算 D(x),即 x 与已选择的最近中心之间的距离。
- 使用加权概率分布随机选择一个新数据点作为新中心,其中选择点 x 的概率与 D(x)2 成正比。
- 重复步骤 2 和 3,直到选择了 k 个中心。
- 现在已经选择了初始中心,继续使用标准的 k-means 聚类。