数据挖掘 - 如何比较余弦相似度和曼哈顿距离的性能？ - 吾爱随笔录

数据挖掘聚类 k-均值表现评估距离

2022-03-06 05:44:24

我正在通过在词向量上应用 k-Means 来对文档进行聚类。为了测量集群质量，我计算了不同 k 的 David Bouldin 指数。我尝试了两种不同的距离度量，余弦相似度和曼哈顿距离，得到了完全不同的值：

这些值可以直接比较吗？（曼哈顿真的在这里表现得更好吗？）或者是否有另一种方法来比较两种不同度量的聚类结果？

1个回答

比较不同距离的距离值是无稽之谈。

考虑这个距离函数：

d (x, y) = 0

$d(x,y)=0$

显然，这给出了较小的值，但它也是无用的。

考虑曼哈顿距离的这个微不足道的变化：

d (x, y) = \sum_{i} | x_{i} - y_{i} | / 100

$d(x,y) = \sum_i |x_i-y_i|/100$

显然，这个距离相当于曼哈顿，但会产生更小的值。

选择距离是因为它是“使用正确的东西”，而不是因为某个数字。如果您需要长度归一化并且具有稀疏向量，则余弦很好。

其它你可能感兴趣的问题