高斯混合中的最佳分量数

机器算法验证 分类 k-均值 混合分布 无监督学习
2022-03-14 02:51:32

因此,在 k-means 中获得最佳集群数量的“想法”是有据可查的。我找到了一篇关于在高斯混合中执行此操作的文章,但不确定我是否对此信服,不太了解。有没有...更温和的方式来做到这一点?

1个回答

只是对 Dikran Marsupial 评论的一些扩展(交叉验证)。主要思想是以某种方式将您的数据拆分为训练集和验证集,尝试不同数量的组件,并根据相应的训练和验证似然值选择最佳组件。

GMM 的可能性只是p(x|π,μ,Σ)=KπkN(x|μk,Σk)根据定义,其中K是组件(集群)的数量和π,μ,Σ是模型参数。通过改变值K您可以绘制训练集和验证集的 GMM 可能性,如下所示。

在此处输入图像描述

在这个例子中,很明显组件的最佳数量是 20 左右。Coursera 上有关于这个的很好的视频,这就是我得到上图的地方。


另一种常用的方法是贝叶斯信息准则(BIC)

BIC=2log(L)+Klog(n)
在哪里L是可能性,K 是参数的数量,并且n数据点的数量。可以理解为对log似然增加了参数个数的惩罚。