机器算法验证 - 用 kmeans 初始化 EM/GMM 的协方差矩阵和权重应该是多少？ - 吾爱随笔录

机器算法验证机器学习高斯混合分布期望最大化

2022-04-16 13:23:49

通常使用 kmeans 聚类的结果为高斯混合模型初始化 EM。然而，kmeans 只为您提供起始 GMM 的均值（中心），但 EM 初始化通常需要完整的 GMM 描述（即包括协方差矩阵和权重）。

因此，为基于 kmeans 的 GMM 提供初始协方差矩阵和权重的“好”方法是什么？只需分配随机值（假设 sum(weights)=1）？

2个回答

k-means 还告诉您哪些数据点属于哪个集群。对协方差的良好起始估计应该是集群内协方差，而对权重的良好估计应该是分配给每个集群的数据点的分数。

老问题，但无论如何都值得一说..

EM 算法在找到每个数据点的责任（它们属于每个混合物的概率）和计算分布的模式之间进行迭代。因此，您应该只需要初始化职责或模式（但不能同时初始化），这可能取决于实现。

K-means 应该为您提供职责的初始化，尽管每种混合的概率为 1 或 0。

话虽如此，A. Dondas 的回答是完全正确的。

其它你可能感兴趣的问题