根据对这个问题的回答,在确定集群数量的启发式方法中存在缺陷。
更稳健的方法可能是基于概率的聚类:从概率的角度来看,聚类的目标是在给定数据的情况下找到最可能的聚类集。因此,我们永远不能“100% 确定”训练实例应该放在某个集群中:它们只是有一定的属于它的概率。
我想知道这个推理是否正确,以及它在实践中如何发挥作用。
根据对这个问题的回答,在确定集群数量的启发式方法中存在缺陷。
更稳健的方法可能是基于概率的聚类:从概率的角度来看,聚类的目标是在给定数据的情况下找到最可能的聚类集。因此,我们永远不能“100% 确定”训练实例应该放在某个集群中:它们只是有一定的属于它的概率。
我想知道这个推理是否正确,以及它在实践中如何发挥作用。
有一些方法可以做到这一点。一个好的起点是
这个想法是在混合高斯的混合权重上放置一个狄利克雷先验,并取无限多个分量的限制。由于您始终拥有有限多的数据点,因此您可能拥有无限多的混合并不重要,但它允许模型在需要时选择新的集群。
这方面还有很多工作要做。一个好的起点是 Yee Whye Teh的出版物。
您应该回答的第一个问题是:
什么是集群?
大多数时候,集群就是聚类算法找到的任何东西。根据定义,这是正确的。
如果你运行例如 k-means,它可以很好地找到最优数据集的单元 voronoi 分区。因此,如果您指的是 k-means,那么问题是:数据集基于的概率是多少沃罗诺伊细胞?