机器算法验证 - 聚类的正确距离。也许马哈拉诺比斯？ - 吾爱随笔录

聚类的正确距离。也许马哈拉诺比斯？

机器算法验证聚类距离函数

2022-03-26 01:53:20

我必须做一个聚类分析，我问我应该使用哪个距离。

我知道 99% 的聚类是使用欧几里德距离进行的，但我听说过 Mahalanobis 距离，它似乎更好，因为它考虑了数据的协方差矩阵。

问题：为什么没有更多地使用马氏距离？

例如，使用此数据（这 2 个 Dim 内的 70% 的方差）：在此处输入图像描述

欧几里得距离不适合，那么马氏距离可以更好地拟合吗？

编辑：欧几里得距离不适合我的意思是明显的集群没有圆形在此处输入图像描述

2个回答

您用于聚类分析的距离度量应取决于您的数据。例如，在生态学中，我们经常使用关于生态群落的物种存在/不存在/丰度的数据，并使用距离（即相似性）度量，例如 Sorensen 和 Bray-Curtis 度量。

不应该有任何特别反对使用马氏距离的东西。欧几里得距离可能是最直观的使用方法，也许对于您所在的领域，它通常效果很好。但是，它不适用于所有数据集。您可以做的一件事是尝试不同的距离度量和不同的聚类技术，并比较分析中的共生相关性，以查看数据最能支持的模式；此外，查看生成的集群，看看什么是有意义的，并且可以根据您所在领域的现有文献进行解释。

此外，这里有一个关于 CrossValidated 的相关帖子——此外，谷歌搜索“非欧几里德距离聚类分析”看起来会带来一些有用的结果。

希望那有所帮助！

也许看看 相关聚类，它旨在找到具有非球形形状的聚类。

如果您想尝试一下马氏距离，请注意高斯混合模型 EM 聚类确实使用了马氏距离。

其它你可能感兴趣的问题

上一篇比较两个高斯样本的最大值下一篇多重比较测试的可视化显示