MMD-VAE 是否解决了 vanilla VAE 的图像模糊问题?
人工智能
神经网络
深度学习
生成模型
图像生成
变分自动编码器
2021-11-06 07:24:44
1个回答
[学习 VAE 模型 5 个月后回答我自己的问题]
MMD-VAE 或 InfoVAE 的重点并不是强调生成样本的视觉质量。它是通过编码过程来保存更多的信息。MMD 公式源于将互系数因子引入到 VAE 的证据下界 (ELBO) 损失中。有关完整推导,请参阅论文附录。该公式改善了潜在空间中的信息内容,并提供了对真实后验的更准确近似——这些结果也在论文中得到了经验证明。
但是,InfoVAE 使用像素级或元素级重建损失。无论先前的损失项如何,逐元素重建损失都可能导致某种程度的模糊。在 Github 上,一些开发人员已经实现了 InfoVAE 模型并展示了他们的结果。这是一个这样的实现的链接,我可以亲自验证它的结果。
从我自己的实验来看,我可以说,尽管 InfoVAE 可以为某些数据提供更好的重建,但仍然存在相当大的模糊性。
感知相似度度量可以作为输入图像的静态函数来学习或计算。通过学习感知损失,VAE 可以产生更清晰的图像。PixelVAE和VAEGAN是具有此类实现的知名模型。对于图像本身的静态函数,重建质量将取决于该函数的性质,这样的模型可能对所有类型的数据集都不是很有用。使用 SSIM、FSIM 等措施,我们最终可能仍会得到模糊的图像。
其它你可能感兴趣的问题