带有 Mahalanobis 的 k-means 是聚类的有效选择吗?

数据挖掘 聚类 k-均值 模型选择 贝叶斯
2022-03-10 22:59:36

如果k-means with Mahalanobis distance是具有不同方差集群的数据集的数学/方法正确选项,我想了解更多信息步骤是:

  1. 创建聚合数据集(最初是随机或其他方式,没关系)
  2. 估计每个聚合/集群数据集的 mu、sigma
  3. 通过计算每个点到每个集群的马氏距离并更新集群来重新计算集群。
  4. 转到 2,直到集群没有变化。

我已经看到使用了这个实现,也在论文中看到了它。然而,有些东西让你感觉不舒服。没有办法使用 Mahalanobis 获得“绝对”的最佳聚类(即轮廓度量)。您只能在数据上估计模型(不同的正态分布)的误差(例如贝叶斯信息准则)。而且你绝对可以过拟合。就聚类和方法论而言,这仍然是“正确的”吗?这仍然被称为“k-means”聚类吗?

我想一定是有效的,因为我没有看到任何反对它的论据。然而,在我使用它之前,我觉得有必要问一下,只是为了确定一下。

谢谢一堆。

2个回答

感觉不对,因为存在收敛问题。这里

它有失败的倾向。使用 kmeans 和欧几里得距离,您可以获得一些非常好的数学属性,并且可以保证收敛。

这取决于您要应用集群的情况。如果您的基础分布是多元高斯分布,则马氏距离可能很有用。在大多数情况下,k-means 与欧几里得距离相结合。然而,在某些情况下,欧几里得距离没有用,例如文本聚类,因为余弦相似度似乎是合适的度量。