机器算法验证 - 为什么是变分推理而不是最大似然？ - 吾爱随笔录

当使用变分推理方案时，我们假设潜在变量 $\mathbf z$ ，模型 $p(\mathbf x, \mathbf z)$ , 并最大化 $\log p(\mathbf x)$ .

引入变分分布 $q(\mathbf z)$ ，损失（负ELBO）可以写成： $-\mathop{\mathbb{E}}[\log p(\mathbf x)] + \text{KL}[q(\mathbf z) || p(\mathbf z)]$ . 在摊销推理中，我们建模 $q(\mathbf z | \mathbf x)$ ，它与重新参数化技巧一起给出了所谓的变分自动编码器模型（VAE）。

我的问题是，为什么不从我们想要最大化的事实开始 $\log p(\mathbf x)$ 和写

\log p (x) = \int \log p (x | z) p (z) d z = \underset{p (z)}{E} [\log p (x | z)]

$\log p(\mathbf x) = \int \log p(\mathbf x | \mathbf z) p(\mathbf z) d\mathbf z = \mathop{\mathbb{E}}_{p(\mathbf z)} [\log p(\mathbf x | \mathbf z)]$ 现在我们可以通过从蒙特卡洛采样来优化它

p (z)

$p(\mathbf z)$ .

问题是我们没有真正得到真正的后验 $p(\mathbf z | \mathbf x)$ ? 如果是这样，为什么我们真的关心后路？分配 $q(\mathbf z)$ 无论如何都是真实后验的近似值（通常不是很好），而 ELBO只是我们试图最大化的函数的下限。

还是我们总是需要第二项作为正则化？在那种情况下，我们为什么要近似后验 $p(\mathbf z | \mathbf x)$ , 并且不进行正则化 $p(\mathbf z)$ . 正如我所见，一切都是棘手的，因此当我们在多个级别上进行近似时，没有太多使用严格的贝叶斯行为。

一个例子是 GMM 模型。我们可以将参数（均值、方差...）设置为可学习的，并通过基于梯度的数据优化来学习。