找到正确数量的集群的概率方法是什么?

机器算法验证 聚类
2022-04-16 17:59:13

根据对这个问题的回答,在确定集群数量的启发式方法中存在缺陷。

更稳健的方法可能是基于概率的聚类:从概率的角度来看,聚类的目标是在给定数据的情况下找到最可能的聚类集。因此,我们永远不能“100% 确定”训练实例应该放在某个集群中:它们只是有一定的属于它的概率。

我想知道这个推理是否正确,以及它在实践中如何发挥作用。

2个回答

有一些方法可以做到这一点。一个好的起点是

拉斯穆森,行政长官(2000 年)。无限高斯混合模型。在 SA Solla、TK Leen 和 K.-R。Müller (Eds.), Advances in Neural Information Processing Systems 12 (Vol. 12, pp. 554-560)。麻省理工学院出版社。

这个想法是在混合高斯的混合权重上放置一个狄利克雷先验,并取无限多个分量的限制。由于您始终拥有有限多的数据点,因此您可能拥有无限多的混合并不重要,但它允许模型在需要时选择新的集群。

这方面还有很多工作要做。一个好的起点是 Yee Whye Teh的出版物。

您应该回答的第一个问题是:

什么是集群?

大多数时候,集群就是聚类算法找到的任何东西。根据定义,这是正确的。

如果你运行例如 k-means,它可以很好地找到最优k数据集的单元 voronoi 分区。因此,如果您指的是 k-means,那么问题是:数据集基于的概率是多少k沃罗诺伊细胞?