机器算法验证 - Jürgen Schmidhuber 是否引入了生成对抗网络？ - 吾爱随笔录

Jürgen Schmidhuber 是否引入了生成对抗网络？

机器算法验证神经网络历史甘

2022-01-17 12:20:47

我在https://en.wikipedia.org/wiki/Generative_adversarial_networks上阅读：

[生成对抗网络] 由 Ian Goodfellow 等人在 2014 年引入。

但Jurgen Schmidhuber声称早先在该方向上进行了类似的工作（例如，在 NIPS 2016 的生成对抗网络教程中存在一些争论：https ://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Generative-Adversarial-Networks见 1h03min）。

生成对抗网络背后的想法是由 Jürgen Schmidhuber 首次公开介绍的吗？如果不是，Jürgen Schmidhuber 的想法有多相似？

3个回答

我在 2010 年的一篇博文(archive.org)中自行发表了确定性多种生成对抗网络 (GAN) 的基本思想。我已经搜索但在任何地方都找不到类似的东西，也没有时间尝试实现它。我过去不是，现在也不是神经网络研究员，在该领域没有任何联系。我将在此处复制粘贴博客文章：

2010-02-24

一种训练人工神经网络以在可变上下文中生成缺失数据的方法。由于这个想法很难用一句话来表达，我将举一个例子：

图像可能缺少像素（比方说，在污迹下）。只知道周围的像素，如何恢复丢失的像素？一种方法是“生成器”神经网络，将周围的像素作为输入，生成丢失的像素。

但是如何训练这样的网络呢？不能指望网络准确地产生丢失的像素。例如，想象一下丢失的数据是一片草地。一个人可以用一堆草坪的图像来教网络，去掉部分。老师知道丢失的数据，并且可以根据生成的草块与原始数据之间的均方根差（RMSD）对网络进行评分。问题是，如果生成器遇到不属于训练集的图像，神经网络就不可能将所有叶子，尤其是在补丁中间的叶子放在正确的位置。最低 RMSD 误差可能是通过网络用纯色填充补丁的中间区域来实现的，纯色是典型草图像中像素颜色的平均值。如果网络试图生成看起来对人类有说服力的草并因此实现其目的，那么 RMSD 指标将会受到不幸的惩罚。

我的想法是这样的（见下图）：与生成器同时训练一个分类器网络，该网络以随机或交替的顺序给出生成的原始数据。然后分类器必须在周围图像上下文的上下文中猜测输入是原始的（1）还是生成的（0）。生成器网络同时试图从分类器中获得高分 (1)。希望结果是，这两个网络一开始都非常简单，并且朝着生成和识别越来越多的高级特征的方向发展，接近并可能击败人类辨别生成数据和原始数据的能力。如果为每个分数考虑多个训练样本，则 RMSD 是要使用的正确错误度量，

人工神经网络训练设置

当我最后提到 RMSD 时，我指的是“概率估计”的误差度量，而不是像素值。

我最初在 2000 年开始考虑使用神经网络（comp.dsp 帖子）来为上采样（重新采样到更高的采样频率）数字音频生成缺失的高频，这种方式令人信服而不是准确。2001 年，我为培训收集了一个音频库。以下是 2006 年 1 月 20 日的 EFNet #musicdsp Internet Relay Chat (IRC) 日志的部分内容，我 (yehar) 在其中与另一位用户 (_Beta) 讨论了这个想法：

[22:18] <yehar> 样本的问题是，如果你还没有“上面”的东西，那么如果你上采样，你能做什么......
[22:22] <yehar> 我曾经收集了一个大声音库，这样我就可以开发一个“智能”算法来解决这个确切的问题
[22:22] <yehar> 我会使用神经网络
[22:22] <yehar> 但我没有完成这项工作：- D
[22:23] <_Beta> 神经网络的问题是你必须有某种方法来衡量结果的
好坏 [22:24] <yehar> beta：我有这样的想法，你可以在与您开发“智能的声音创造者”的同时
[22:26] <yehar> 测试版：这个听众将学会检测它何时在收听一个创建的或自然的高空频谱。和创作者同时开发，试图规避这种检测

2006 年到 2010 年的某个时候，一位朋友邀请了一位专家来看看我的想法并与我讨论。他们认为这很有趣，但表示当一个网络可以完成这项工作时，训练两个网络并不划算。我不确定他们是否没有得到核心思想，或者他们是否立即看到了一种将其表述为单个网络的方法，可能在拓扑中的某个地方存在瓶颈，将其分成两部分。那是在我什至不知道反向传播仍然是事实上的训练方法的时候（在 2015 年的 Deep Dream 热潮中了解到制作视频）。多年来，我曾与几位数据科学家和其他我认为可能感兴趣的人谈论我的想法，但反应平淡。

2017 年 5 月，我在 YouTube [Mirror]上看到了 Ian Goodfellow 的教程演示，这让我很开心。在我看来，这是相同的基本想法，但我目前理解的差异如下所述，并且已经完成了艰苦的工作以使其产生良好的结果。他还给出了一个理论，或者基于一个理论，为什么它应该起作用，而我从未对我的想法进行任何形式的正式分析。Goodfellow 的演讲回答了我遇到的问题以及更多问题。

Goodfellow 的 GAN 和他建议的扩展在生成器中包含一个噪声源。我从没想过要包含噪声源，而是使用训练数据上下文，更好地将想法与没有噪声向量输入且模型以部分数据为条件的条件 GAN (cGAN) 相匹配。我目前基于Mathieu 等人的理解。2016 年，如果有足够的输入可变性，则不需要噪声源即可获得有用的结果。另一个区别是 Goodfellow 的 GAN 最小化了对数似然。后来，引入了最小二乘 GAN（LSGAN）（Mao et al. 2017) 符合我的 RMSD 建议。因此，我的想法将与条件最小二乘生成对抗网络 (cLSGAN) 相匹配，而无需将噪声向量输入到生成器，并且将部分数据作为条件输入。生成生成器从数据分布的近似值中采样。我现在确实知道并且怀疑现实世界中的嘈杂输入是否会根据我的想法实现这一点，但这并不是说如果没有，结果就没有用处。

上面提到的差异是我认为 Goodfellow 不知道或听说我的想法的主要原因。另一个是我的博客没有其他机器学习内容，所以它在机器学习界的曝光率非常有限。

当审稿人向作者施加压力以引用审稿人自己的作品时，这是一种利益冲突。

Ian Goodfellow 的回答是 Jürgen Schmidhuber 在 NIPS 2016 上声称对 GAN 的贡献是正确的吗？发表于 2017-03-21：

确切地说，他并没有声称对 GAN 的功劳。它更复杂。

你可以看到他在 NIPS 2014 提交的关于 GAN 的审稿人时用自己的话写了什么：导出评论、讨论、作者反馈和元评论（镜像）

他是要求我们将 GAN 的名称更改为“inverse PM”的审稿人。

这是他认为没有得到充分承认的论文： http://ftp://ftp.idsia.ch/pub/juergen/factorial.pdf （镜像）

我不喜欢这样的问题没有好的方法来裁决。我联系了 NIPS 组织者，询问 Jürgen 是否有办法对我提出投诉，并让 NIPS 代表委员会判断我的出版物是否不公平地对待他。他们说没有这样的程序可用。

我个人认为可预测性最小化和 GAN 之间没有任何重大联系。在承认 GAN 和其他实际上相关的算法之间的联系时，我从来没有遇到任何问题，比如噪声对比估计和自我监督提升。

Jürgen 和我打算很快一起写一篇论文来描述 PM 和 GAN 之间的异同，假设我们能够就它们是什么达成一致。

这直接摘自 Schmidhuber 在 1991 年的 1991 年原始论文：

“我提出了一种新颖的通用原则，用于对输入模式的分布式非冗余内部表示进行无监督学习。该原则基于两种相反的力量。对于每个表示单元，都有一个自适应预测器，它试图从剩余单元中预测该单元。反过来，每个单元都试图对环境做出反应，使其可预测性最小化。这鼓励每个单元从环境输入中过滤出“抽象概念”，以便这些概念在统计上独立于其他单元关注的概念。

如果您了解 GAN 背后的基本原理以及生成器和判别器所玩的 min-max 优化游戏，那么原则上 GAN 和 Schmidhuber 的原始论文（原则上）本质上没有区别，原理是相同的，如果 Goodfellow 没有不引用他的论文，学术上叫抄袭，现实生活中叫偷。这里基本上没有辩论让你接受或不接受这个想法。如果您查看原始论文，他提出了一个类似的 min-max 优化游戏（此节选直接取自原始论文）：

目标函数的最大化（如原始 Schmidhuber 的论文中定义的遵循以下约束）倾向于强制表示单元采用最大化独立性的二进制值（指 GAN 中的生成器最大化它的能力，使得从向量中采样的输出除了最小化重建误差（指的是最小化判别器的损失函数，即最大化其区分生成图像和真实图像的能力）之外，生成器编码的分布变得不可能让判别器判别。

因此，任何了解这类东西的人都可以意识到这里是谁的错，以及为什么 Schmidhuber 的烦恼在真正意义上是有道理的。括号中的陈述比较了 GAN 和 Schmidhuber 1991 年的原始论文之间的原理相似性。

其它你可能感兴趣的问题

上一篇用于在课堂上举例的微小（真实）数据集？下一篇AIC 选型指南