聚类的正确距离。也许马哈拉诺比斯?

机器算法验证 聚类 距离函数
2022-03-26 01:53:20

我必须做一个聚类分析,我问我应该使用哪个距离。

我知道 99% 的聚类是使用欧几里德距离进行的,但我听说过 Mahalanobis 距离,它似乎更好,因为它考虑了数据的协方差矩阵。

问题:为什么没有更多地使用马氏距离?

例如,使用此数据(这 2 个 Dim 内的 70% 的方差):在此处输入图像描述

欧几里得距离不适合,那么马氏距离可以更好地拟合吗?

编辑:欧几里得距离不适合我的意思是明显的集群没有圆形 在此处输入图像描述

2个回答

您用于聚类分析的距离度量应取决于您的数据。例如,在生态学中,我们经常使用关于生态群落的物种存在/不存在/丰度的数据,并使用距离(即相似性)度量,例如 Sorensen 和 Bray-Curtis 度量。

不应该有任何特别反对使用马氏距离的东西。欧几里得距离可能是最直观的使用方法,也许对于您所在的领域,它通常效果很好。但是,它不适用于所有数据集。您可以做的一件事是尝试不同的距离度量和不同的聚类技术,并比较分析中的共生相关性,以查看数据最能支持的模式;此外,查看生成的集群,看看什么是有意义的,并且可以根据您所在领域的现有文献进行解释。

此外,这里有一个关于 CrossValidated 的相关帖子——此外,谷歌搜索“非欧几里德距离聚类分析”看起来会带来一些有用的结果。

希望那有所帮助!

也许看看 相关聚类,它旨在找到具有非球形形状的聚类。

如果您想尝试一下马氏距离,请注意高斯混合模型 EM 聚类确实使用了马氏距离。