我必须做一个聚类分析,我问我应该使用哪个距离。
我知道 99% 的聚类是使用欧几里德距离进行的,但我听说过 Mahalanobis 距离,它似乎更好,因为它考虑了数据的协方差矩阵。
问题:为什么没有更多地使用马氏距离?
例如,使用此数据(这 2 个 Dim 内的 70% 的方差):
欧几里得距离不适合,那么马氏距离可以更好地拟合吗?
编辑:欧几里得距离不适合我的意思是明显的集群没有圆形
我必须做一个聚类分析,我问我应该使用哪个距离。
我知道 99% 的聚类是使用欧几里德距离进行的,但我听说过 Mahalanobis 距离,它似乎更好,因为它考虑了数据的协方差矩阵。
问题:为什么没有更多地使用马氏距离?
例如,使用此数据(这 2 个 Dim 内的 70% 的方差):
欧几里得距离不适合,那么马氏距离可以更好地拟合吗?
编辑:欧几里得距离不适合我的意思是明显的集群没有圆形
您用于聚类分析的距离度量应取决于您的数据。例如,在生态学中,我们经常使用关于生态群落的物种存在/不存在/丰度的数据,并使用距离(即相似性)度量,例如 Sorensen 和 Bray-Curtis 度量。
不应该有任何特别反对使用马氏距离的东西。欧几里得距离可能是最直观的使用方法,也许对于您所在的领域,它通常效果很好。但是,它不适用于所有数据集。您可以做的一件事是尝试不同的距离度量和不同的聚类技术,并比较分析中的共生相关性,以查看数据最能支持的模式;此外,查看生成的集群,看看什么是有意义的,并且可以根据您所在领域的现有文献进行解释。
此外,这里有一个关于 CrossValidated 的相关帖子——此外,谷歌搜索“非欧几里德距离聚类分析”看起来会带来一些有用的结果。
希望那有所帮助!
也许看看 相关聚类,它旨在找到具有非球形形状的聚类。
如果您想尝试一下马氏距离,请注意高斯混合模型 EM 聚类确实使用了马氏距离。