用狄拉克函数拟合高斯混合模型

机器算法验证 最大似然 优化 收敛 期望最大化 高斯混合分布
2022-04-04 11:31:14

有人告诉我,对高斯混合模型使用梯度方法可能最终会得到狄拉克三角函数。之前没有想过这个问题,但是当我验证这一点时,它似乎确实是一个问题。

例如,让我们考虑 2 个高斯和数据点的混合x1,x2,,xm(m2)。以下模型给出了无穷大的可能性:

  • 一种混合物c1适合任何数据点,比如说x1,由狄拉克三角函数。
  • 另一种混合物c2用广泛分布的高斯拟合剩余的数据点。

可能性

p(D)=i=1mp(xi)=i=1m[p(ci=1)p(xi|ci=1)+p(ci=2)p(xi|ci=2)]

那么对于x1,如果无穷大,它的概率密度。为了x2,,xm第一项为零,但第二项非零。那么总体可能性是无穷大的。

我想知道我的理解是否正确。如果是这样,我很困惑为什么 EM 没有遇到这个问题,因为教科书通常不会讨论用 Dirac delta 函数拟合 GMM。

我对拟合 GMM 的目标进一步感到困惑。似乎我们不必(而且不正确)最大化可能性。如上所示,最大似然是无穷大。你不需要最大化它,它已经存在了。但是 EM 算法试图通过交替将似然性的下限推得很紧并在下限内进行优化来最大化似然性。这引发了一个疑问,如果 EM 工作仅仅是因为它无法找到全局最优值。否则,EM 将适合 Dirac delta。

我很困惑,不知道出了什么问题。

1个回答

我很困惑为什么 EM 没有遇到这个问题,因为教科书通常不会讨论用 Dirac delta 函数拟合 GMM。

许多教科书(包括我的)都讨论了高斯混合模型的可能性的无限性。这对于 EM 来说很少是问题,因为相应的模式非常窄,因此对于 EM 的大多数起始值不构成吸引力域(除非一个以μ1=x1, 说)。

无论我们使用什么算法来拟合 GMM,都会出现奇点问题。但是,MLE 仍然是学习 GMM 的实用标准。

该问题仅在单独考虑似然函数时出现。矩估计器没有遇到这个困难,贝叶斯方法也没有,因为σ1获得零先验概率。这是肖邦和罗伯特 (2010)对高斯混合通过嵌套采样获得的后验样本 的插图

0.3N(0,1)+0.7N(μ,σ2)

在此处输入图像描述

虽然一些粒子位于靠近σ=0,他们很快就逃离了这附近,并专注于另一种可能性模式。另请注意,Redner 和 Walker (1984)的结果表明存在一致的 EM 解决方案。