具有余弦距离的 K-means++

数据挖掘 机器学习 聚类 k-均值 余弦距离
2022-02-20 23:31:52

我想知道如何用余弦距离实现 k-means++,根据下面的引用(维基百科),它说,距离需要平方。但是在我的理解中,正方形失去了距离的方向,这真的很重要。

cos_dist(x,y) = -1 => (-1)^2 = 1
  1. 在数据点中均匀随机选择一个中心。
  2. 对于尚未选择的每个数据点 x,计算 D(x),即 x 与已选择的最近中心之间的距离。
  3. 使用加权概率分布随机选择一个新数据点作为新中心,其中选择点 x 的概率与 D(x)2 成正比。
  4. 重复步骤 2 和 3,直到选择了 k 个中心。
  5. 现在已经选择了初始中心,继续使用标准的 k-means 聚类。
1个回答

直觉是选择一个尽可能远离现有中心的点。新点在哪个方向上并不重要,只要它离得很远。