当权重不允许呈指数增长时,神经网络如何逼近所有函数?

人工智能 神经网络 机器学习 证明
2021-11-14 00:33:37

在论文“ Approximation by Superpositions of a Sigmoidal Function ”(Cybenko,1989 年)中已经证明,神经网络是通用函数逼近器。我有一个相关的问题。

假设神经网络的输入和输出向量具有相同的维度n. 考虑一组二进制值函数{0,1}n{0,1}n. (2n)(2n)这样的功能。(深度)神经网络中的参数数量远小于上述数量。假设网络有L层,每一层是n×n全连接,则权重总数为Ln2.

如果不允许权重的数量指数增长n, 深度神经网络能否逼近所有大小的二值函数n?

Cybenko 的证明似乎是基于神经网络函数的函数空间的密集度。但是这种密集度似乎并不能保证当权重的数量是多项式有界时存在神经网络函数。

我有一个理论。如果我们用多项式替换 ANN 的激活函数,比如三次,然后L层,复合多项式函数将具有度3L. 换句话说,整个网络的度数呈指数增长。换句话说,其以过零次数衡量的“复杂性”呈指数增长。如果激活函数是 sigmoid,这似乎仍然适用,但它涉及“拓扑度”(又名映射度理论)的计算,我还没有时间去做。

根据我的上述理论,VC 维度(大致类似于零交叉)随着我们向 ANN 添加层而呈指数增长,但它无法赶上布尔函数的指数增长。所以人工神经网络只能代表所有可能的布尔函数的一小部分,而且这个部分甚至呈指数下降。这是我目前的猜想。

1个回答

什么是证明

该问题参考了 Sigmoidal 函数的叠加近似证明,G. Cybenko,1989,控制、信号和系统的数学

1989 年的证明表明,由“具有连续 sigmoidal 非线性”的激活组成的网络可以“均匀地逼近 n 个实变量的任何连续函数”,因此,正如问题所述,证明不'不直接应用于 1 位离散输出。请注意,预计网络仅近似于所需的电路行为。

该问题将系统定义为来自输入位向量的任意映射

I:i1,,in

输出位向量

O:o1,,on

进一步证明,这种映射可以通过每个输出位的一个布尔表达式来完成。对所有人2n可能的输入向量排列,存在一个由 AND 和 NOT 运算组成的布尔表达式,计算与任意逻辑真值表匹配的结果。

有一些技术可以减少布尔表达式阵列中的冗余,这对 VLSI 芯片布局至关重要。

如果网络中除了衰减矩阵(参数)之外的任何地方都没有保留状态,系统就不是图灵完备的。然而,关于在描述映射中实现布尔表达式的能力,给定任意数量的层,网络是完整的。

估计层深度要求

在 1989 年的证明中只需要一个内层,那么要学习准确的 n 位到 n 位映射需要多少层?

问题提出有2n的力量2n排列。每个输入位向量到所需输出位状态的映射可以用一个真值表表示n二进制维度。

每个输出是一个独立的位,这意味着2n可以产生每个输出位的唯一布尔函数的位表示不绑定到任何其他输出通道。正如所料,有2nI 到 O 映射的运动自由度。

对于输入是位向量的情况n位,在哪里n是任何一个的激活次数L层,网络中的激活总数at以及所有衰减矩阵的标量元素总数(表示训练状态的参数)qt对于网络如下。

at=0=vL1nv

=n大号

p=0=v大号-2nv2

=n2(大号-1)

如果衰减矩阵中的每个元素都使用 IEEE 64 位浮点数,我们可以计算训练参数化中可用的位数。

b=64(大号-1)n2

今天对除最后一层以外的所有层使用 ReLU、leaky ReLU 或其他更快的收敛激活而不是 sigmoid 并为最后一层使用简单的二进制阈值是很正常的。

因此,我们有一个由问题推断的信息论比较的公式,并且可以减少它。

22n64(大号-1)n2

大号1+22n-6n2

这是一个粗略的门槛。对于二进制输入到二进制输出的高度可靠的训练,层数应该远高于阈值。

低于阈值,由于反向传播机制中的信号饱和,映射的可训练性将退化为大多数应用程序的不充分近似。