我正在通过在词向量上应用 k-Means 来对文档进行聚类。为了测量集群质量,我计算了不同 k 的 David Bouldin 指数。我尝试了两种不同的距离度量,余弦相似度和曼哈顿距离,得到了完全不同的值:
- 余弦相似度:~0.8 到 ~0.6
- 曼哈顿距离:~0.3 到 ~0.2
这些值可以直接比较吗?(曼哈顿真的在这里表现得更好吗?)或者是否有另一种方法来比较两种不同度量的聚类结果?
我正在通过在词向量上应用 k-Means 来对文档进行聚类。为了测量集群质量,我计算了不同 k 的 David Bouldin 指数。我尝试了两种不同的距离度量,余弦相似度和曼哈顿距离,得到了完全不同的值:
这些值可以直接比较吗?(曼哈顿真的在这里表现得更好吗?)或者是否有另一种方法来比较两种不同度量的聚类结果?
比较不同距离的距离值是无稽之谈。
考虑这个距离函数:
显然,这给出了较小的值,但它也是无用的。
考虑曼哈顿距离的这个微不足道的变化:
显然,这个距离相当于曼哈顿,但会产生更小的值。
选择距离是因为它是“使用正确的东西”,而不是因为某个数字。如果您需要长度归一化并且具有稀疏向量,则余弦很好。