机器算法验证 - 找到正确数量的集群的概率方法是什么？ - 吾爱随笔录

机器算法验证聚类

2022-04-16 17:59:13

根据对这个问题的回答，在确定集群数量的启发式方法中存在缺陷。

更稳健的方法可能是基于概率的聚类：从概率的角度来看，聚类的目标是在给定数据的情况下找到最可能的聚类集。因此，我们永远不能“100% 确定”训练实例应该放在某个集群中：它们只是有一定的属于它的概率。

我想知道这个推理是否正确，以及它在实践中如何发挥作用。

2个回答

有一些方法可以做到这一点。一个好的起点是

这个想法是在混合高斯的混合权重上放置一个狄利克雷先验，并取无限多个分量的限制。由于您始终拥有有限多的数据点，因此您可能拥有无限多的混合并不重要，但它允许模型在需要时选择新的集群。

这方面还有很多工作要做。一个好的起点是 Yee Whye Teh的出版物。

您应该回答的第一个问题是：

什么是集群？

大多数时候，集群就是聚类算法找到的任何东西。根据定义，这是正确的。

如果你运行例如 k-means，它可以很好地找到最优 $k$ 数据集的单元 voronoi 分区。因此，如果您指的是 k-means，那么问题是：数据集基于的概率是多少 $k$ 沃罗诺伊细胞？

其它你可能感兴趣的问题