什么是证明
该问题参考了 Sigmoidal 函数的叠加近似证明,G. Cybenko,1989,控制、信号和系统的数学。
1989 年的证明表明,由“具有连续 sigmoidal 非线性”的激活组成的网络可以“均匀地逼近 n 个实变量的任何连续函数”,因此,正如问题所述,证明不'不直接应用于 1 位离散输出。请注意,预计网络仅近似于所需的电路行为。
该问题将系统定义为来自输入位向量的任意映射
一世:一世1,… ,一世n
输出位向量
○ :○1,… ,○n
进一步证明,这种映射可以通过每个输出位的一个布尔表达式来完成。对所有人2n可能的输入向量排列,存在一个由 AND 和 NOT 运算组成的布尔表达式,计算与任意逻辑真值表匹配的结果。
有一些技术可以减少布尔表达式阵列中的冗余,这对 VLSI 芯片布局至关重要。
如果网络中除了衰减矩阵(参数)之外的任何地方都没有保留状态,系统就不是图灵完备的。然而,关于在描述映射中实现布尔表达式的能力,给定任意数量的层,网络是完整的。
估计层深度要求
在 1989 年的证明中只需要一个内层,那么要学习准确的 n 位到 n 位映射需要多少层?
问题提出有2n的力量2n排列。每个输入位向量到所需输出位状态的映射可以用一个真值表表示n二进制维度。
每个输出是一个独立的位,这意味着2n可以产生每个输出位的唯一布尔函数的位表示不绑定到任何其他输出通道。正如所料,有2个I 到 O 映射的运动自由度。
对于输入是位向量的情况n位,在哪里n是任何一个的激活次数大号层,网络中的激活总数一个吨以及所有衰减矩阵的标量元素总数(表示训练状态的参数)q吨对于网络如下。
一个吨=∑L - 10 = vnv
= n大号
p吨=∑大号- 20 = vn2v
=n2( L - 1 )
如果衰减矩阵中的每个元素都使用 IEEE 64 位浮点数,我们可以计算训练参数化中可用的位数。
b吨= 64( L - 1 )n2
今天对除最后一层以外的所有层使用 ReLU、leaky ReLU 或其他更快的收敛激活而不是 sigmoid 并为最后一层使用简单的二进制阈值是很正常的。
因此,我们有一个由问题推断的信息论比较的公式,并且可以减少它。
22个≤ 64( L - 1 )n2
L≥1 + _ _22 n - 6n2
这是一个粗略的门槛。对于二进制输入到二进制输出的高度可靠的训练,层数应该远高于阈值。
低于阈值,由于反向传播机制中的信号饱和,映射的可训练性将退化为大多数应用程序的不充分近似。