为什么变分自动编码器的输出是模糊的,而 GAN 的输出是清晰的并且有锐利的边缘?

人工智能 比较 生成对抗网络 自动编码器 生成模型 变分自动编码器
2021-10-27 01:42:26

我在几篇论文中观察到,变分自编码器的输出是模糊的,而 GAN 的输出是清晰的并且具有锐利的边缘。

有人可以给出一些直觉,为什么会这样?我确实想了很多,但找不到任何逻辑。

2个回答

关键是:VAE通常使用很小的潜在维度,输入的信息很难通过这个瓶颈,同时它试图用批量输入数据来最小化损失,你应该知道结果——VAE只能有平均和模糊的输出。

如果增加瓶颈的带宽,即潜在向量的大小,VAE 可以获得较高的重建质量,例如Spatial-Z-VAE

本质上,变分自编码器通过尝试通过多维高斯/正态分布拟合数据来学习数据的“显式”分布。

但是,生成对抗网络学习数据的“隐式”分布,这意味着您无法直接对它们进行采样。

此外,由于神经网络的确定性,GAN 倾向于学习狄拉克 Delta 函数如果幸运并且 GAN 的训练成功,那么您可以获得更清晰的图像,因为模型不必明确处理由于采样而注入其中的噪声,因此这可能是一个更简单的学习问题。

通过确定性,我的意思是假设您在模型的中间层的任何地方都没有采样,并且只使用神经网络作为输入-输出映射函数。