我在 2010 年的一篇博文(archive.org)中自行发表了确定性多种生成对抗网络 (GAN) 的基本思想。我已经搜索但在任何地方都找不到类似的东西,也没有时间尝试实现它。我过去不是,现在也不是神经网络研究员,在该领域没有任何联系。我将在此处复制粘贴博客文章:
2010-02-24
一种训练人工神经网络以在可变上下文中生成缺失数据的方法。由于这个想法很难用一句话来表达,我将举一个例子:
图像可能缺少像素(比方说,在污迹下)。只知道周围的像素,如何恢复丢失的像素?一种方法是“生成器”神经网络,将周围的像素作为输入,生成丢失的像素。
但是如何训练这样的网络呢?不能指望网络准确地产生丢失的像素。例如,想象一下丢失的数据是一片草地。一个人可以用一堆草坪的图像来教网络,去掉部分。老师知道丢失的数据,并且可以根据生成的草块与原始数据之间的均方根差(RMSD)对网络进行评分。问题是,如果生成器遇到不属于训练集的图像,神经网络就不可能将所有叶子,尤其是在补丁中间的叶子放在正确的位置。最低 RMSD 误差可能是通过网络用纯色填充补丁的中间区域来实现的,纯色是典型草图像中像素颜色的平均值。如果网络试图生成看起来对人类有说服力的草并因此实现其目的,那么 RMSD 指标将会受到不幸的惩罚。
我的想法是这样的(见下图):与生成器同时训练一个分类器网络,该网络以随机或交替的顺序给出生成的原始数据。然后分类器必须在周围图像上下文的上下文中猜测输入是原始的(1)还是生成的(0)。生成器网络同时试图从分类器中获得高分 (1)。希望结果是,这两个网络一开始都非常简单,并且朝着生成和识别越来越多的高级特征的方向发展,接近并可能击败人类辨别生成数据和原始数据的能力。如果为每个分数考虑多个训练样本,则 RMSD 是要使用的正确错误度量,
人工神经网络训练设置
当我最后提到 RMSD 时,我指的是“概率估计”的误差度量,而不是像素值。
我最初在 2000 年开始考虑使用神经网络(comp.dsp 帖子)来为上采样(重新采样到更高的采样频率)数字音频生成缺失的高频,这种方式令人信服而不是准确。2001 年,我为培训收集了一个音频库。以下是 2006 年 1 月 20 日的 EFNet #musicdsp Internet Relay Chat (IRC) 日志的部分内容,我 (yehar) 在其中与另一位用户 (_Beta) 讨论了这个想法:
[22:18] <yehar> 样本的问题是,如果你还没有“上面”的东西,那么如果你上采样,你能做什么......
[22:22] <yehar> 我曾经收集了一个大声音库,这样我就可以开发一个“智能”算法来解决这个确切的问题
[22:22] <yehar> 我会使用神经网络
[22:22] <yehar> 但我没有完成这项工作:- D
[22:23] <_Beta> 神经网络的问题是你必须有某种方法来衡量结果的
好坏 [22:24] <yehar> beta:我有这样的想法,你可以在与您开发“智能的声音创造者”的同时
[22:26] <yehar> 测试版:这个听众将学会检测它何时在收听一个创建的或自然的高空频谱。和创作者同时开发,试图规避这种检测
2006 年到 2010 年的某个时候,一位朋友邀请了一位专家来看看我的想法并与我讨论。他们认为这很有趣,但表示当一个网络可以完成这项工作时,训练两个网络并不划算。我不确定他们是否没有得到核心思想,或者他们是否立即看到了一种将其表述为单个网络的方法,可能在拓扑中的某个地方存在瓶颈,将其分成两部分。那是在我什至不知道反向传播仍然是事实上的训练方法的时候(在 2015 年的 Deep Dream 热潮中了解到制作视频)。多年来,我曾与几位数据科学家和其他我认为可能感兴趣的人谈论我的想法,但反应平淡。
2017 年 5 月,我在 YouTube [Mirror]上看到了 Ian Goodfellow 的教程演示,这让我很开心。在我看来,这是相同的基本想法,但我目前理解的差异如下所述,并且已经完成了艰苦的工作以使其产生良好的结果。他还给出了一个理论,或者基于一个理论,为什么它应该起作用,而我从未对我的想法进行任何形式的正式分析。Goodfellow 的演讲回答了我遇到的问题以及更多问题。
Goodfellow 的 GAN 和他建议的扩展在生成器中包含一个噪声源。我从没想过要包含噪声源,而是使用训练数据上下文,更好地将想法与没有噪声向量输入且模型以部分数据为条件的条件 GAN (cGAN) 相匹配。我目前基于Mathieu 等人的理解。2016 年,如果有足够的输入可变性,则不需要噪声源即可获得有用的结果。另一个区别是 Goodfellow 的 GAN 最小化了对数似然。后来,引入了最小二乘 GAN(LSGAN)(Mao et al. 2017) 符合我的 RMSD 建议。因此,我的想法将与条件最小二乘生成对抗网络 (cLSGAN) 相匹配,而无需将噪声向量输入到生成器,并且将部分数据作为条件输入。生成生成器从数据分布的近似值中采样。我现在确实知道并且怀疑现实世界中的嘈杂输入是否会根据我的想法实现这一点,但这并不是说如果没有,结果就没有用处。
上面提到的差异是我认为 Goodfellow 不知道或听说我的想法的主要原因。另一个是我的博客没有其他机器学习内容,所以它在机器学习界的曝光率非常有限。
当审稿人向作者施加压力以引用审稿人自己的作品时,这是一种利益冲突。