用 kmeans 初始化 EM/GMM 的协方差矩阵和权重应该是多少?

机器算法验证 机器学习 高斯混合分布 期望最大化
2022-04-16 13:23:49

通常使用 kmeans 聚类的结果为高斯混合模型初始化 EM。然而,kmeans 只为您提供起始 GMM 的均值(中心),但 EM 初始化通常需要完整的 GMM 描述(即包括协方差矩阵和权重)。

因此,为基于 kmeans 的 GMM 提供初始协方差矩阵和权重的“好”方法是什么?只需分配随机值(假设 sum(weights)=1)?

2个回答

k-means 还告诉您哪些数据点属于哪个集群。对协方差的良好起始估计应该是集群内协方差,而对权重的良好估计应该是分配给每个集群的数据点的分数。

老问题,但无论如何都值得一说..

EM 算法在找到每个数据点的责任(它们属于每个混合物的概率)和计算分布的模式之间进行迭代。因此,您应该只需要初始化职责或模式(但不能同时初始化),这可能取决于实现。

K-means 应该为您提供职责的初始化,尽管每种混合的概率为 1 或 0。

话虽如此,A. Dondas 的回答是完全正确的。