如何比较余弦相似度和曼哈顿距离的性能?

数据挖掘 聚类 k-均值 表现 评估 距离
2022-03-06 05:44:24

我正在通过在词向量上应用 k-Means 来对文档进行聚类。为了测量集群质量,我计算了不同 k 的 David Bouldin 指数。我尝试了两种不同的距离度量,余​​弦相似度和曼哈顿距离,得到了完全不同的值:

  • 余弦相似度:~0.8 到 ~0.6
  • 曼哈顿距离:~0.3 到 ~0.2

这些值可以直接比较吗?(曼哈顿真的在这里表现得更好吗?)或者是否有另一种方法来比较两种不同度量的聚类结果?

1个回答

比较不同距离的距离值是无稽之谈。

考虑这个距离函数:

d(x,y)=0

显然,这给出了较小的值,但它也是无用的。

考虑曼哈顿距离的这个微不足道的变化:

d(x,y)=i|xiyi|/100

显然,这个距离相当于曼哈顿,但会产生更小的值。

选择距离是因为它是“使用正确的东西”,而不是因为某个数字。如果您需要长度归一化并且具有稀疏向量,则余弦很好。