在 GAN 的生成器网络中注入噪声的目的是什么?

人工智能 深度学习 生成对抗网络 生成模型
2021-10-19 12:01:08

我不明白为什么经过足够的训练,生成器无法将训练集中的所有图像作为来自潜在空间的映射来学习 - 这是训练中的绝对最佳情况,因为它复制了分布并且鉴别器输出将始终为 0.5。尽管我看到的大多数博客文章都没有提到噪音,但其中一些在图表中包含它们或描述了它们的存在,但从未准确描述这种噪音的目的。

是否注入这种噪声以避免训练数据的精确再现?如果不是,这种注射的目的是什么?如何避免精确复制?

1个回答

您的目标是在构建 GAN 时对分布进行建模,因此您需要一种能够对该分布进行采样的方法。噪音目的是让你可以做到这一点。通常,它是从计算上易于绘制的分布中绘制的(如高斯分布)。

您正在为生成器建模G(X) 在哪里XN(μ,σ2). 这意味着G(X)本身就是一个随机变量。网络的前向传递将X样品进入我们的G(X)样本,允许我们制定损失函数(通过将期望求解为抽取样本的平均值)并训练模型。

要点:注入的噪声只是我们的生成器在另一个空间中的参数化,训练目标是学习理想的变换(我们使用神经网络,因为它们是可微的并且是有效的函数逼近器)

另外,请注意您为什么不准确地学习训练数据(全部)是因为通常G(X)是连续的,因此如果它的共域中有 2 个图像,则在像素空间中也存在一些从一个到另一个的路径,其中包含训练中不存在的不可数(或量化可数)数量的图像,这将反映在损失上,因此在优化的最小-最大博弈中,它很难学习鼻子上的训练集。