我不明白为什么经过足够的训练,生成器无法将训练集中的所有图像作为来自潜在空间的映射来学习 - 这是训练中的绝对最佳情况,因为它复制了分布并且鉴别器输出将始终为 0.5。尽管我看到的大多数博客文章都没有提到噪音,但其中一些在图表中包含它们或描述了它们的存在,但从未准确描述这种噪音的目的。
是否注入这种噪声以避免训练数据的精确再现?如果不是,这种注射的目的是什么?如何避免精确复制?
我不明白为什么经过足够的训练,生成器无法将训练集中的所有图像作为来自潜在空间的映射来学习 - 这是训练中的绝对最佳情况,因为它复制了分布并且鉴别器输出将始终为 0.5。尽管我看到的大多数博客文章都没有提到噪音,但其中一些在图表中包含它们或描述了它们的存在,但从未准确描述这种噪音的目的。
是否注入这种噪声以避免训练数据的精确再现?如果不是,这种注射的目的是什么?如何避免精确复制?
您的目标是在构建 GAN 时对分布进行建模,因此您需要一种能够对该分布进行采样的方法。噪音的目的是让你可以做到这一点。通常,它是从计算上易于绘制的分布中绘制的(如高斯分布)。
您正在为生成器建模 在哪里. 这意味着本身就是一个随机变量。网络的前向传递将样品进入我们的样本,允许我们制定损失函数(通过将期望求解为抽取样本的平均值)并训练模型。
要点:注入的噪声只是我们的生成器在另一个空间中的参数化,训练目标是学习理想的变换(我们使用神经网络,因为它们是可微的并且是有效的函数逼近器)
另外,请注意您为什么不准确地学习训练数据(全部)是因为通常是连续的,因此如果它的共域中有 2 个图像,则在像素空间中也存在一些从一个到另一个的路径,其中包含训练中不存在的不可数(或量化可数)数量的图像,这将反映在损失上,因此在优化的最小-最大博弈中,它很难学习鼻子上的训练集。