高斯混合模型聚类

数据挖掘 机器学习 优化 数据科学模型 期望最大化 gmm
2022-03-03 17:51:54

在高斯混合模型 (GMM) 中使用 EM 算法时,在 E-step 中,我们取训练数据集中的每个 x 集合来计算和更新簇的每个高斯分布的“权重”和参数(M-step) . 我已经读到我们这样做直到它收敛。我在这里有点困惑。这是否意味着它每次都在 EM 算法的“一步”中循环遍历整个训练数据集 X?还是“一步”对应于计算整个数据集中的一个特定x集合并使用它来更新每个分布的参数和权重?

为了让问题更清楚,GMM 中 EM 算法中的每个“步骤”是否涉及整个训练数据集 X,或者每个步骤是否意味着训练集中的一个特定 x 集,我们一次循环一个数据集以改进一次一个?

任何帮助将不胜感激!谢谢。

1个回答

在算法开始时,您正在对相关参数进行初步猜测。然后在每次迭代中,在 E 步中,您将计算所有给定数据点的责任,在 M 步中,您将计算加权均值和方差。

由于您正在对数据点进行聚类,因此没有训练或测试集。您只想将数据集划分为两个(或更多)集群。