2 个隐藏层比 1 个更强大

机器算法验证 机器学习 神经网络 超参数 拓扑
2022-04-19 01:52:04

在搜索有关选择神经网络中隐藏层数的信息时,我多次遇到下表,包括在此答案中:

| 隐藏层数 | 结果 |

0 - 仅能够表示线性可分离函数或决策。

1 - 可以逼近任何包含从一个有限空间到另一个有限空间的连续映射的函数。

2 - 可以使用有理激活函数将任意决策边界表示为任意精度,并且可以将任何平滑映射逼近到任意精度。

我熟悉 1 个隐藏层的通用逼近定理,但不熟悉关于 2 个隐藏层的附加功率的所谓结果。这是真的吗?如果是这样,我在哪里可以找到详细的解释和证明?

编辑:显然这张桌子来自Jeff Heaton

2个回答

我在ED Sontag的《使用两层网络的反馈稳定》一文中找到了我的问题的答案。从介绍:

众所周知,可以由具有单个隐藏层的网络计算的函数可以近似连续函数,均匀地在紧凑上,仅在弱假设下θ. 现在考虑以下反演问题:给定一个连续函数f:RmRp,一个紧凑的子集CRp包含在图像中f, 和ε>0, 找一个函数ϕ:RpRm以便f(ϕ(x))x<ε对于所有很容易看出,通常需要不连续的函数我们稍后会证明,只有一个隐藏层的网络不足以保证解决所有此类问题,但有两个隐藏层的网络可以。xCϕ

另一篇关于 1 层和 2 层网络之间质量差异的论文:

用于局部近似的神经网络(1994)

我们证明了具有单个隐藏层和理想 sigmoid 响应函数的前馈人工神经网络无法在维数大于 1 的欧几里得空间中提供局部近似。我们还表明,可以设计具有两个隐藏层的网络来提供局部近似。

本文的目的是研究构建适合局部逼近的网络的可能性,即具有以下性质的网络:如果目标函数仅在欧几里得空间的一个小子集上进行修改,那么只有几个神经元,而不是整个网络,需要重新训练……我们证明,如果输入空间的维数大于一,那么这样一个隐藏层和Heaviside激活函数的网络是无法构建的。相比之下,我们还表明始终可以构建具有两个或更多隐藏层的网络来完成任务。

AMS 链接