从我自己的理解开始,并以图像生成的目的为范围,我很清楚主要的架构差异:
GAN 的生成器从相对低维的随机变量中采样并生成图像。然后鉴别器获取该图像并预测该图像是否属于目标分布。一旦经过训练,我就可以通过对初始随机变量进行采样并通过生成器转发来生成各种图像。
VAE 的编码器从目标分布中获取图像并将其压缩到低维潜在空间中。然后解码器的工作是获取潜在空间表示并再现原始图像。一旦网络经过训练,我就可以生成各种图像的潜在空间表示,并在这些图像之间进行插值,然后再通过生成新图像的解码器进行转发。
我更感兴趣的是上述架构差异的后果。为什么我会选择一种方法而不是另一种方法?为什么?(例如,如果 GAN 通常会产生质量更好的图像,有什么想法为什么会这样吗?是在所有情况下都正确还是仅在某些情况下正确?)