高斯混合模型 - 使用保留的可能性进行模型选择?

机器算法验证 可能性 高斯混合分布 过拟合 有限混合模型
2022-03-12 17:56:56

我试图了解如何选择高斯混合模型(GMM)中的组件数量。大多数演示文稿都提到了AICBIC等标准的使用。

但是,如果我们简单地遵循监督学习的模型选择方法,我们可以例如执行交叉验证并估计每个保留集的可能性。然后我们选择具有最高平均似然性的模型。这是选择 GMM 组件数量的有效方法吗?

2个回答

我会说使用保留数据集的可能性是一个好方法。对于高斯混合,我们拥有的高斯越多,我们得到的可能性就越大。就像多项式回归问题中的顺序一样。

AIC 和 BIC 将对自动使用的参数数量(高斯)进行惩罚,但使用单独的测试集也是一个不错的选择。我将使用一个极端的例子来解释,假设我们选择的高斯数与训练集中的数据点数相同。你的训练分数会非常好(无限可能性),但测试分数不会如此。这与其他机器学习模型选择过程相同。

在这里,您可以找到一篇相关的论文,可以让您深入了解。在其中,作者发现 BIC 和保留对数概率的表现与保留概率相似。

然而,这篇论文与潜在模式模型有关,又名。混合成员模型,他们想要确定潜在类别的最佳数量,K。