MMD-VAE 是否解决了 vanilla VAE 的图像模糊问题?

人工智能 神经网络 深度学习 生成模型 图像生成 变分自动编码器
2021-11-06 07:24:44

我知道对于普通的 VAE,有几个原因可以证明产生模糊图像的合理性。InfoVAE论文描述了解码器足够灵活以忽略潜在属性并生成最能减少重建损失的平均图像的情况。因此图像模糊。

在实际实验中, MMD 公式真正缓解了多少模糊问题?如果有人有使用MMD-VAE 的经验,我想知道他们对 MMD-VAE 的重建质量的看法。

此外,用其他感知相似性度量替换 MSE 重建损失度量是否会提高生成的图像质量?

1个回答

[学习 VAE 模型 5 个月后回答我自己的问题]

MMD-VAE 或 InfoVAE 的重点并不是强调生成样本的视觉质量。它是通过编码过程来保存更多的信息。MMD 公式源于将互系数因子引入到 VAE 的证据下界 (ELBO) 损失中。有关完整推导,请参阅论文附录。该公式改善了潜在空间中的信息内容,并提供了对真实后验的更准确近似——这些结果也在论文中得到了经验证明。

但是,InfoVAE 使用像素级或元素级重建损失。无论先前的损失项如何,逐元素重建损失都可能导致某种程度的模糊。在 Github 上,一些开发人员已经实现了 InfoVAE 模型并展示了他们的结果。这是一个这样的实现的链接,我可以亲自验证它的结果。

从我自己的实验来看,我可以说,尽管 InfoVAE 可以为某些数据提供更好的重建,但仍然存在相当大的模糊性。

感知相似度度量可以作为输入图像的静态函数来学习或计算。通过学习感知损失,VAE 可以产生更清晰的图像。PixelVAEVAEGAN是具有此类实现的知名模型。对于图像本身的静态函数,重建质量将取决于该函数的性质,这样的模型可能对所有类型的数据集都不是很有用。使用 SSIM、FSIM 等措施,我们最终可能仍会得到模糊的图像。