通常使用 kmeans 聚类的结果为高斯混合模型初始化 EM。然而,kmeans 只为您提供起始 GMM 的均值(中心),但 EM 初始化通常需要完整的 GMM 描述(即包括协方差矩阵和权重)。
因此,为基于 kmeans 的 GMM 提供初始协方差矩阵和权重的“好”方法是什么?只需分配随机值(假设 sum(weights)=1)?
通常使用 kmeans 聚类的结果为高斯混合模型初始化 EM。然而,kmeans 只为您提供起始 GMM 的均值(中心),但 EM 初始化通常需要完整的 GMM 描述(即包括协方差矩阵和权重)。
因此,为基于 kmeans 的 GMM 提供初始协方差矩阵和权重的“好”方法是什么?只需分配随机值(假设 sum(weights)=1)?
k-means 还告诉您哪些数据点属于哪个集群。对协方差的良好起始估计应该是集群内协方差,而对权重的良好估计应该是分配给每个集群的数据点的分数。
老问题,但无论如何都值得一说..
EM 算法在找到每个数据点的责任(它们属于每个混合物的概率)和计算分布的模式之间进行迭代。因此,您应该只需要初始化职责或模式(但不能同时初始化),这可能取决于实现。
K-means 应该为您提供职责的初始化,尽管每种混合的概率为 1 或 0。
话虽如此,A. Dondas 的回答是完全正确的。