对 K-medoid 使用曼哈顿距离比使用欧几里得距离有什么好处?

机器算法验证 聚类 数据集 k-均值 k-中心点
2022-03-12 14:06:57

请给我理由。我没有找到任何使用欧几里得距离进行计算的 k-medoid 示例。所有示例均由 k-medoid 的曼哈顿距离构成。

2个回答

曼哈顿距离基于绝对值距离,而不是平方误差(读取 Eclidean)距离。在实践中,大多数时候你应该得到类似的结果。绝对值距离应该给出更稳健的结果,而欧几里得会受到异常值的影响。

这是一种多变量技术,两点之间的“距离”涉及聚合每个变量之间的距离。因此,如果两个点在大多数变量上都很接近,但在其中一个上的差异更大,那么欧几里德距离会夸大这种差异,而曼哈顿距离会不以为然,更多地受到其他变量的接近程度的影响。

根据维基百科,k-medoid 算法没有为欧几里得距离定义,这可以解释为什么你没有看到它的例子。据推测,其原因是有一个强大的聚类方法。

开始(咆哮模式)

粗心的分析师经常将一大堆变量放入分析中,并非所有变量都与手头的问题有很大关系,这些分析师也不希望花必要的时间来辨别哪些变量很重要——可能通过与主题交谈专家。这样的分析师(他们可能称自己为大数据专家)自然会喜欢一种在变量选择方面稳健的技术。传统上,统计学家会选择少量的质量数据,因此偏爱平方误差方法,因为它们的效率更高。

结束(咆哮模式)

我没有足够的声誉来发表评论,这并不是一个完整的答案,但是..

另外值得注意的是,k-means 聚类可以使用任何类型的距离度量来执行(尽管实际上它几乎总是使用欧几里德距离来完成)。如果在 k-means 聚类中使用 manhattan 距离度量,该算法仍会产生具有每个维度的中值的质心,而不是像欧几里德距离那样为每个维度的平均值。

这些集群不一定与 k-mediods 给出的集群相同;因此,主要的收获是曼哈顿距离度量与k-mediods没有内在联系。