人工智能 - 为什么变分自动编码器使用重建损失？ - 吾爱随笔录

为什么变分自动编码器使用重建损失？

人工智能深度学习数学变分自动编码器证据下限

2021-11-08 22:11:08

训练 VAE 以减少以下两种损失。

推断的潜在分布与高斯分布之间的 KL 散度。
重建损失

我知道第一个规则化 VAE 以获得结构化的潜在空间。但是，第二次损失为什么以及如何帮助 VAE 发挥作用呢？

在 VAE 的训练过程中，我们首先将图像馈送到编码器。然后，编码器推断均值和方差。之后，我们采样 $z$ 从推断的分布。最后，解码器得到采样 $z$ 并生成图像。因此，通过这种方式，对 VAE 进行训练，使生成的图像与原始输入图像相等。

在这里，我无法理解为什么采样 $z$ 应该制作原始图像，因为 $z$ 被采样，似乎 $z$ 与原图没有任何关系。

但是，如您所知，VAE 运行良好。所以我认为我错过了一些重要的事情，或者以完全错误的方式理解它。

1个回答

VAE 使用由 KL 项和似然项组成的ELBO 损失。ELBO 损失是数据证据的下限，因此如果最大化 ELBO，您也会最大化给定数据的证据，这是您间接想要做的，即您想要给定数据的概率（即数据集中的数据）要高（因为您想使用 VAE 生成与数据集中的输入类似的输入）。因此，这个想法是您联合优化 KL 项和重建（或似然）项（即 ELBO）。为什么？因为，正如我刚才所说，ELBO 是E vidence L ower BOund 在给定的数据上，因此，通过最大化它，你也在最大化你的数据的证据。换句话说，如果你最大化 ELBO，你会找到一个解码器，它很有可能重建你的输入（即似然项），但同时，你希望你的编码器受到约束（即 KL 项）。请阅读此答案以获取更多详细信息。

在这里，我无法理解为什么采样 $z$ 应该制作原始图像，因为 $z$ 被采样，似乎 $z$ 与原图没有任何关系。

关系是您将最大化 ELBO，这意味着（只有当您熟悉 ELBO 损失时，您才能看到此含义）您将最小化后验和先验之间的 KL 散度以生成样本 $z$ （即最小化，因为在 ELBO 损失中 KL 项前面会有一个减号）并最大化重建输入的概率。更确切地说， $z$ 用于重建输入（即解码器执行此操作），然后用于计算重建损失。

在数学公式中，您会看到 ELBO 的似然项是 $p(x \mid z)$ ，即输入的可能性 $x$ 给定 $z$ . 这 $z$ 是解码器的输入，它产生一个重构 $x$ . 在实践中，人们将例如使用交叉熵来计算“重建损失”（例如，参见这个 PyTorch 实现），它应该对应于这个似然项 $p(x \mid z)$ . 为什么交叉熵对应于可能性？因为你实际上可以证明交叉熵等价于负对数似然。（另外，请注意，在 ELBO 损失中， $p(x \mid z)$ 没有出现，但对数 $p(x \mid z)$ 出现，但为简单起见，我使用了 $p(x \mid z)$ 而不是 $\log p(x \mid z)$ 多于。）

其它你可能感兴趣的问题

上一篇联合概率密度函数与随机最优控制和强化学习有什么关系？下一篇A2C中如何给演员设置目标？