与不同距离度量的聚类分析相关的用例有哪些?

机器算法验证 聚类 k-均值 距离函数 距离 公制
2022-03-26 20:43:00

我试图在我的 k-means 算法中使用不同的距离度量,如欧几里得、曼哈顿、余弦、切比雪夫以及其他距离度量来计算数据点和中心之间的距离。在什么情况下,一个距离度量在聚类场景中比另一个更有用?[比较所有上述距离指标]

1个回答

将任意距离函数与 k-means 混合时要小心。

K-means 不使用欧几里得距离。这是一个普遍的误解。K-means 分配点以使方差贡献最小化IE(xiμi)2适用于所有尺寸i. 但是如果你总结所有这些贡献,你会得到平方欧几里得距离,因为是单调的,你也可以通过欧几里德距离分配给最近的邻居(虽然不计算平方根更快)。

将 k-means 与其他距离函数混合时,更大的问题实际上是meank-means 更新均值的方式适用于方差。即均值是最小化总方差的最佳估计但这并不意味着它将是最小化任意其他距离函数的最佳估计!(参见例如这个反例,其中 EMD 的平均值不是最优的绝对 pearson 相关的反例

通常,在您想要使用与欧几里得距离不同的距离函数的情况下(例如,由于高维或离散数据),出于同样的原因,您不会想要使用 k-means。例如,如果您有稀疏向量或二进制向量(因为它不是二进制的),则平均值没有多大意义。

对于其他距离函数,请查看 k-medoids。