使用 GAN 进行人脸以外的高质量图像合成是否可行?

人工智能 生成对抗网络 生成模型 文件 图像生成
2021-11-03 07:22:00

著名的 Nvidia 论文Progressive Growing of GANs for Improvement Quality, Stability, and Variation中,GAN 可以生成超逼真的人脸。但是,在同一篇论文中,其他类别的图像相当令人失望,从那时起似乎没有任何改进。为什么会这样?是因为他们没有足够的其他类别的训练数据吗?还是由于 GAN 的一些基本限制?

我遇到了一篇关于 GAN 局限性的论文:Seeing What a GAN Cannot Generate

除了人脸,还有人用 GAN 进行图像合成吗?有成功案例吗?

2个回答

生成对抗网络,基本上可以归结为通用生成器和鉴别器的组合,试图相互击败,因此生成器试图生成更好的图像(通常来自噪声),而鉴别器在分类方面变得更好。所以,不,它不仅适用于合成高质量的人脸合成,而且适用于任何图像类型。

事实上,它不仅可以用于任何高质量的图像合成,它还可以用于非图像数据类型(如文本等)这一切都取决于您在一天结束时用于鉴别器和生成器的神经网络类型。

http://openaccess.thecvf.com/content_iccv_2017/html/Osokin_GANs_for_Biological_ICCV_2017_paper.html

以上是一篇通过 GANs 合成细胞图像的论文,因为我个人没有在实践层面上使用过 GANs。

解释 GAN 的一般博客: https ://machinelearningmastery.com/impressive-applications-of-generation-adversarial-networks/

由于许多原因,人脸被更频繁地处理,通常人脸是高度对称的并且具有许多不同的特征,通常比其他类型的图像更多,而且我们作为真正的人类通常擅长人脸识别——制造一个神经网络来欺骗自己,使其成为一个具有挑战性的研究领域。

希望它有所帮助!如果我在某个地方错了,请告诉我。

我会挑战你的断言,即生成的其他类别的图像质量比人脸差得多!

将自行车放在透明/纯色背景上,它们看起来很棒!

图像失败的地方是更复杂的图片,其中有很多元素会发生元素渗出(包括渗入地板等)。这只是图像和训练数据库复杂性的结果。

作为一个例子,我开发了一个 GAN,它可以生成类似“Vaporwave”的图像,如下所示:

这

现在我的结果普遍很差,因为与人脸不同,我的训练集在排列、元素等方面高度多样化。如果您查看示例论文中生成的床图像,GAN 不仅必须学习和生成床,而且还必须高度复杂的背景在训练图像之间确实存在很大差异,而在面部示例中,图像在面部上放大并模糊了背景。

如果您在正常背景设置中使用人脸(例如,可以看到周围的风景),您的 GAN 将表现同样好或坏,因为要学习的复杂性要高得多。

你可以在 Kaggle 上找到我使用非人脸 G​​AN 的经验,但了解糟糕的结果主要是由于训练集非常小以及这些图像非常不同的事实(除了 GAN 快速绘制的颜色渐变)。

https://www.kaggle.com/fnguyen/vaporprogan