为什么 VAE 不会遭受模式崩溃?

人工智能 比较 生成对抗网络 自动编码器 变分自动编码器
2021-11-09 11:24:34

模式崩溃是 GAN 面临的常见问题。我很好奇为什么VAE不会遭受模式崩溃?

1个回答

使用生成对抗网络,生成器所关心的只是欺骗判别器。不需要聪明、详尽或有效利用输入空间。只要鉴别器返回“真实”(相对于“假”),生成器就“获胜”。

希望是当生成器和鉴别器同时训练时,每个都将尝试捕捉另一个的错误。随着鉴别器在一种模式下更好地分辨真假,生成器将更多地关注其他模式,在这些模式上它更容易欺骗鉴别器。

但这不是事情发生的唯一方式。当鉴别器在区分一种模式方面变得更好时,生成器可以转而专注于该模式。与其将训练分散在不同的模式上,不如尝试真正擅长在特定模式下生成样本。只要鉴别器可以被愚弄为正在生成的样本报告“真实”,生成器就会获得相同的奖励,就好像它将自己分散在多种模式中一样。

想想伪造者/侦探的类比。与试图学习如何擅长制作一系列绘画(卡拉瓦乔、梵高、沃霍尔等)的伪造者相比,伪造者可以专注于真正擅长制作特定风格的绘画(例如荷兰大师),甚至特定的艺术家。一个把所有时间都花在完善他们的伦勃朗赝品上的人会比那些试图同时擅长毕加索和伦勃朗(以及克利和米罗和......)的人做得更好。

但是,变分自动编码器是不同的。使用 VAE,潜在空间是由所有的输入示例。VAE 无法专注于特定模式。所有训练示例都映射到相同的潜在空间。如果由于某种原因,解码器网络决定专注于单一模式,将潜在空间映射到该模式的输出,那么来自其他模式的所有训练示例的恢复都将很差。这意味着对于解码器的训练会有很大的损失和梯度校正。解码器训练在所有输入示例/模式之间保持平衡,因此解码器在解码潜在空间时需要类似地平衡。GAN 没有这种类似的平衡,因为生成器不一定需要在其输出中进行平衡——只要它可以可靠地欺骗鉴别器即可。

这并不意味着 VAE 没有类似的问题,尽管它们与模式崩溃不同。VAE 的问题在于,每个单独的示例(在极端情况下)都被映射到潜在空间中的相同随机分布。这可以鼓励解码器忽略潜在变量输入,或多或少地任意生成输出。最近有许多方法(特别是对抗性自动编码器以及InfoVAE和密切相关的Wasserstein自动编码器)试图通过在集成级别而不是在单个训练示例基础上约束潜在空间分布来解决这个问题。