用反向传播训练的神经网络的学习限制是什么?

人工智能 神经网络 机器学习 反向传播 通用逼近定理 计算学习理论
2021-11-05 22:54:40

1969 年,Seymour Papert 和 Marvin Minsky 表明感知器无法学习 XOR 函数。

这是通过具有至少一个隐藏层的反向传播网络解决的。这种类型的网络可以学习异或功能。

我相信我曾经被教导过,每个可以通过具有多个隐藏层的反向传播神经网络学习的问题,也可以通过具有单个隐藏层的反向传播神经网络学习。(尽管可能需要非线性激活函数)。

然而,我不清楚反向传播神经网络本身的限制是什么。用梯度下降和反向传播训练的神经网络无法学习哪些模式?

2个回答

多层感知器(MLP)理论上可以逼近任何有界的连续函数。不能保证不连续的功能。有很多重要的不连续函数,比如素数计数函数。

数计数功能 π(n)简单地等于小于或等于的素数个数n. 它对每个素数都有不连续性p,祝你好运,尝试用神经网络来近似这个!

然而,这个函数被广泛研究并且在数论中极其重要。参见黎曼假设

虽然我不熟悉任何关于多层感知器 (MLP)无法学习的明确陈述,但我可以提供一些关于您对 MLP 功能所做的积极陈述的更多细节:

具有单个隐藏层的 MLP 能够实现通常称为“通用函数逼近”的功能,即它可以将任何有界连续函数逼近到任意准确度。使用两个隐藏层,边界限制被移除[Cybenko, 1988]

本文继续证明这适用于广泛的激活函数(不一定是非线性的)。3 层 MLP 也能够表示任何布尔函数(尽管它们可能需要指数级的神经元)。

另请参阅CS SE 关于其他通用逼近器的这个有趣的答案。