因此,在 k-means 中获得最佳集群数量的“想法”是有据可查的。我找到了一篇关于在高斯混合中执行此操作的文章,但不确定我是否对此信服,不太了解。有没有...更温和的方式来做到这一点?
高斯混合中的最佳分量数
机器算法验证
分类
k-均值
混合分布
无监督学习
2022-03-14 02:51:32
1个回答
只是对 Dikran Marsupial 评论的一些扩展(交叉验证)。主要思想是以某种方式将您的数据拆分为训练集和验证集,尝试不同数量的组件,并根据相应的训练和验证似然值选择最佳组件。
GMM 的可能性只是根据定义,其中是组件(集群)的数量和,,是模型参数。通过改变值您可以绘制训练集和验证集的 GMM 可能性,如下所示。
在这个例子中,很明显组件的最佳数量是 20 左右。Coursera 上有关于这个的很好的视频,这就是我得到上图的地方。
另一种常用的方法是贝叶斯信息准则(BIC):
在哪里是可能性,K 是参数的数量,并且数据点的数量。可以理解为对log似然增加了参数个数的惩罚。
其它你可能感兴趣的问题