人工智能 - 为什么变分自动编码器的输出是模糊的，而 GAN 的输出是清晰的并且有锐利的边缘？ - 吾爱随笔录

人工智能比较生成对抗网络自动编码器生成模型变分自动编码器

2021-10-27 01:42:26

我在几篇论文中观察到，变分自编码器的输出是模糊的，而 GAN 的输出是清晰的并且具有锐利的边缘。

有人可以给出一些直觉，为什么会这样？我确实想了很多，但找不到任何逻辑。

2个回答

关键是：VAE通常使用很小的潜在维度，输入的信息很难通过这个瓶颈，同时它试图用批量输入数据来最小化损失，你应该知道结果——VAE只能有平均和模糊的输出。

如果增加瓶颈的带宽，即潜在向量的大小，VAE 可以获得较高的重建质量，例如Spatial-Z-VAE

本质上，变分自编码器通过尝试通过多维高斯/正态分布拟合数据来学习数据的“显式”分布。

但是，生成对抗网络学习数据的“隐式”分布，这意味着您无法直接对它们进行采样。

此外，由于神经网络的确定性，GAN 倾向于学习狄拉克 Delta 函数。如果幸运并且 GAN 的训练成功，那么您可以获得更清晰的图像，因为模型不必明确处理由于采样而注入其中的噪声，因此这可能是一个更简单的学习问题。

通过确定性，我的意思是假设您在模型的中间层的任何地方都没有采样，并且只使用神经网络作为输入-输出映射函数。

其它你可能感兴趣的问题