我在几篇论文中观察到,变分自编码器的输出是模糊的,而 GAN 的输出是清晰的并且具有锐利的边缘。
有人可以给出一些直觉,为什么会这样?我确实想了很多,但找不到任何逻辑。
我在几篇论文中观察到,变分自编码器的输出是模糊的,而 GAN 的输出是清晰的并且具有锐利的边缘。
有人可以给出一些直觉,为什么会这样?我确实想了很多,但找不到任何逻辑。
关键是:VAE通常使用很小的潜在维度,输入的信息很难通过这个瓶颈,同时它试图用批量输入数据来最小化损失,你应该知道结果——VAE只能有平均和模糊的输出。
如果增加瓶颈的带宽,即潜在向量的大小,VAE 可以获得较高的重建质量,例如Spatial-Z-VAE
本质上,变分自编码器通过尝试通过多维高斯/正态分布拟合数据来学习数据的“显式”分布。
但是,生成对抗网络学习数据的“隐式”分布,这意味着您无法直接对它们进行采样。
此外,由于神经网络的确定性,GAN 倾向于学习狄拉克 Delta 函数。如果幸运并且 GAN 的训练成功,那么您可以获得更清晰的图像,因为模型不必明确处理由于采样而注入其中的噪声,因此这可能是一个更简单的学习问题。
通过确定性,我的意思是假设您在模型的中间层的任何地方都没有采样,并且只使用神经网络作为输入-输出映射函数。