在高斯混合模型等情况下,原始似然最大化没有封闭项解决方案。然而,最大化 ELBO 确实有分析更新公式(即 E 和 M 步骤的公式)。我理解为什么在这种情况下最大化 ELBO 是一个有用的近似值。
然而,在更复杂的模型中,比如 VAE,E&M 步骤本身没有封闭的解决方案,ELBO 最大化是通过 SGD 完成的。在这种情况下,使用 SGD 优化 ELBO 与使用 SGD 最大化原始似然相比有什么优势?
谢谢
在高斯混合模型等情况下,原始似然最大化没有封闭项解决方案。然而,最大化 ELBO 确实有分析更新公式(即 E 和 M 步骤的公式)。我理解为什么在这种情况下最大化 ELBO 是一个有用的近似值。
然而,在更复杂的模型中,比如 VAE,E&M 步骤本身没有封闭的解决方案,ELBO 最大化是通过 SGD 完成的。在这种情况下,使用 SGD 优化 ELBO 与使用 SGD 最大化原始似然相比有什么优势?
谢谢
我认为您混淆了这两种方法的目的。
根据 Kullback-Leibler 散度,最大化 ELBO 会导致接近真实分布的参数化密度类别。如果您只是在目标上执行 SGD,您将获得的只是(局部)最大参数,但没有近似概率分布。
换句话说,使用变分推理允许完全近似的后验推理(计算概率、间隔、期望等),而目标上的 SGD 只允许对参数进行点估计,但不能对这些进行不确定性量化。