如果k-means with Mahalanobis distance是具有不同方差集群的数据集的数学/方法正确选项,我想了解更多信息。步骤是:
- 创建聚合数据集(最初是随机或其他方式,没关系)
- 估计每个聚合/集群数据集的 mu、sigma
- 通过计算每个点到每个集群的马氏距离并更新集群来重新计算集群。
- 转到 2,直到集群没有变化。
我已经看到使用了这个实现,也在论文中看到了它。然而,有些东西让你感觉不舒服。没有办法使用 Mahalanobis 获得“绝对”的最佳聚类(即轮廓度量)。您只能在数据上估计模型(不同的正态分布)的误差(例如贝叶斯信息准则)。而且你绝对可以过拟合。就聚类和方法论而言,这仍然是“正确的”吗?这仍然被称为“k-means”聚类吗?
我想一定是有效的,因为我没有看到任何反对它的论据。然而,在我使用它之前,我觉得有必要问一下,只是为了确定一下。
谢谢一堆。