在他们著名的《感知器:计算几何导论》一书中,Minsky 和 Papert 表明感知器无法解决 XOR 问题。这促成了第一个 AI 寒冬,导致神经网络的资金削减。但是,现在我们知道多层感知器可以轻松解决 XOR 问题。
Backprop 当时还不为人所知,但他们知道手动构建多层感知器吗?Minsky 和 Papert 在写这本书时是否知道多层感知器可以解决 XOR,尽管不知道如何训练它?
在他们著名的《感知器:计算几何导论》一书中,Minsky 和 Papert 表明感知器无法解决 XOR 问题。这促成了第一个 AI 寒冬,导致神经网络的资金削减。但是,现在我们知道多层感知器可以轻松解决 XOR 问题。
Backprop 当时还不为人所知,但他们知道手动构建多层感知器吗?Minsky 和 Papert 在写这本书时是否知道多层感知器可以解决 XOR,尽管不知道如何训练它?
对此似乎没有历史共识。
Perceptrons的Wikipedia 页面(没有任何一方)给出了一个论点,即 MLP 计算任何布尔函数的能力在当时是广为人知的(至少对于 McCulloch 和 Pitts 而言)。
然而,这个页面给出了一个 1974 年在麻省理工学院人工智能实验室的人的描述,声称这不是那里的常识,暗指“人工智能进展报告:实验室在视觉、语言和其他问题上的研究”中的文档据称支持这一点的情报”(p31-32)。
无论明斯基是否知道,罗森布拉特都知道这一点,因为他在 1961 年发表的真正开创性的报告——神经动力学原理:感知器和脑机制理论中发表了这些结果。
绝大多数学术和行业专家根本不知道 Rosenblatt 关于感知器的出版物的“深度”,他不仅证明了 3 层感知器(他称之为基本)是普遍的(检查第 5.2 节中的定理 1),而且他还提供了关于收敛性的结果(检查第 5.5 节中的定理 4)和对其泛化能力的统计力学分析(检查第 6 章的基础理论,以及图 13 和 14的应用,在第 7.1 节的分析之后.2 )。
不幸的是,罗森布拉特在明斯基和派普特 1969 年的不那么开创性的书出版后不久就意外去世了。我相信它的误导性影响已经使人工智能研究倒退了几十年。
如果罗森布拉特能活得更久,让他在学术界的影响力更强,我们就不会将人工智能领域的图灵奖颁发给那些在严格审查中客观上不值得的人。
在Perceptrons: An Introduction to Computational Geometry (扩展版,第三次印刷,1988 年)一书的13.2 其他多层机器(第 231-232 页)中,Minsky 和 Papert 实际上谈到了他们对所谓的能力的知识或看法多层机器(即具有多层或 MLP 的感知器)。
您是否考虑过具有多层的“感知器”?
好吧,我们已经考虑过Gamba 机器,它可以被描述为“两层感知器”。我们还没有(通过思考或研究文献)发现任何其他真正有趣的多层机器类别,至少没有一个其原理似乎与感知器的原理有显着关系。为了看到这个资格的力量,值得思考一个本身微不足道的事实,即通用计算机可以完全由线性阈值模块构建. 这在任何意义上都不会将计算和编程理论简化为感知器理论。一些哲学家可能想表达相关的一般原理,说计算机远远超过其各个部分的总和,以至于计算机科学家可以忽略组件的性质而只考虑它们的连接性。更具体地说,我们会提醒学生注意以下几点:
带有循环的多层机器清楚地打开了自动机一般理论的所有问题。
一个没有循环但在每一层都有顺序限制的系统只能计算有限顺序的谓词。
另一方面,如果除了没有循环之外没有任何限制,那么空洞一般的怪物再次抬起头来。
扩展的问题不仅仅是技术问题。这也是战略性的。尽管(甚至因为!)它有严重的局限性,但感知器已经证明自己值得研究,它有许多吸引注意力的特性:它的线性;其有趣的学习定理;其作为一种并行计算的明确的范式简单性。没有理由认为这些美德中的任何一种都会延续到多层版本中。尽管如此,我们认为阐明(或拒绝)我们对扩展是无效的直觉判断是一个重要的研究问题。也许会发现一些强大的收敛定理,或者会发现一些未能为多层机器产生有趣的“学习定理”的深刻原因。
所以,让我直接回答你的第一个问题。
Backprop 当时还不为人所知,但他们知道手动构建多层感知器吗?
是的。他们说 Gamba 机器可以被描述为一个 2 层感知器。为了重现性,这里是 Gamba 机器的定义(第13.1 节 Gamba 感知器和其他多层线性机器)
So, let's now address your second question.
Did Minsky & Papert know that multilayer perceptrons could solve XOR at the time they wrote the book, albeit not knowing how to train it?
So, according to the first excerpt, their intuition was the virtues of perceptrons would not carry over to MLPs, but they acknowledge that more research was needed to reject or support this hypothesis.
However, in section 13.0 Introduction of the same book, they write
We believe (but cannot prove) that the deeper limitations extend also to the variant of the perceptron proposed by A. Gamba.
So, they believed that the Gamba machine would not have been able to solve the XOR problem.
However, in the first excerpt, they say that a Turing machine could be built entirely out of linear threshold modules, which seems to be inconsistent with the second excerpt, but that's not really the case because they are not saying how to build a Turing machine out of the linear threshold modules but that just the specific Gamba machine would have the same limitations of the perceptron.