通用逼近定理的Wikipedia 文章引用了本会议论文中 Lebesgue 可测函数的通用逼近定理的一个版本。但是,该论文不包括该定理的证明。有人知道在哪里可以找到证明吗?
我在哪里可以找到普遍逼近定理的证明?
关于这个主题有多篇论文,因为已经有多次尝试从稍微不同的角度和使用稍微不同的假设(例如假设使用某些激活函数)来证明神经网络是普遍的(即它们可以逼近任何连续函数)。请注意,这些证明告诉您神经网络可以逼近任何连续函数,但它们并没有准确地告诉您你需要如何训练你的神经网络,使其接近你想要的功能。此外,关于该主题的大多数论文都具有相当的技术性和数学性,因此,如果您对近似理论和相关领域没有扎实的知识,它们可能难以阅读和理解。尽管如此,下面还是一些可能有用的文章和论文的链接。
神经网络可以计算任何函数的视觉证明文章(Michael Nielsen 撰写)应该会给您一些关于神经网络普遍性背后的直觉,所以这可能是您应该阅读的第一篇文章。
那么您可能应该阅读 G. Cybenko 的论文Approximation by Superpositions of a Sigmoidal Function (1989),他证明了多层感知器(即具有至少一个隐藏层的前馈神经网络)可以逼近任何连续函数。然而,他假设神经网络使用 sigmoid 激活函数,如今,在许多场景中已被 ReLU 激活函数取代。其他作品(例如[1]、[2])表明您不一定需要 sigmoid 激活函数,但只有某些类别的激活函数不会使神经网络具有通用性。
普遍性(即逼近任何连续函数的能力)也已在卷积神经网络的情况下得到证明。例如,参见Ding-Xuan Zhou的《深度卷积神经网络的普遍性》(2020),它表明当神经网络的深度足够大时,卷积神经网络可以将任何连续函数逼近到任意精度。另见Refinement and Universal Approximation via Sparsely Connected ReLU Convolution Nets (by A. Heinecke et al., 2020)
另请参见 Schäfer 等人的Recurrent Neural Networks Are Universal Approximators (2006)第 632 页,这表明递归神经网络是通用函数逼近器。另请参见Siegelmann 和 Sontag的《关于神经网络的计算能力》(1992 年,COLT)。这个答案也可能有用。
对于图神经网络,请参阅图上的通用函数逼近(Rickard Brüel Gabrielsson 着,2020 年,NeurIPS)
前馈神经网络的“现代”保证
我的回答将补充 nbro 的上述内容,它通过关注专门针对前馈网络的最新发展,对不同类型的常用架构的通用逼近定理进行了很好的概述。我会尽可能地尝试强调深度而不是宽度(有时称为宽度)。 享受!
第 1 部分:通用逼近
在这里,我列出了一些最近想到的通用近似结果。 请记住,通用逼近询问前馈网络(或其他架构类型)是否可以将任何(在这种情况下为连续的)函数逼近到任意精度(我将重点关注 :一致的紧凑意义)。
让我提一下,有两种类型的保证:定量的和定性的。后者类似于Hornik 的结果(Neural Networks - 1989),它简单地说明一些神经网络可以将给定(连续)函数逼近到任意精度。这些类型的前一种保证量化了神经网络实际执行近似所需的参数数量,类似于Barron 的(现在)经典论文 (IEEE - 1993)的突破性结果。
浅层案例: 如果您只想要浅层网络的定量结果:那么J. Siegel 和 J. Xu (Neural Networks - 2020)可以解决问题,但是(注意:作者处理的是 Sobolev 案例,但您可以通过以下方式立即获得连续案例Soblev -Morrey 嵌入定理。)
深度(不是窄)ReLU案例: 如果你想要一个具有 ReLU 激活函数的深度网络(但不是太窄)的定量证明,那么Dimity Yarotsky 的结果(COLT - 2018)会成功!
Deep and Narrow:据我所知,具有一般输入和输出空间的深度和窄神经网络的第一个定量证明最近出现在这里: https://arxiv.org/abs/2101.05390(预印本 - 2021)。
这篇文章是P. Kidger 和 T. Lyon 最近针对来自到和A. Kratsios 和 E. Bilokpytov 最近的非欧几里得通用逼近定理 (NeurIPS - 2020)。
第 2 部分:内存容量
一个相关的概念是 “深度神经网络的记忆容量”。
这些结果旨在量化深度网络学习(准确)某些输入数据的分配所需的参数数量到一些输出数据. 例如; 你可能想看看这里:
- 深度 ReLU 网络的内存容量: R. Vershynin 最近的出版物Memory Capacity of Neural Networks with Threshold and Rectified Linear Unit Activations -(SIAM 的 SIMODS 2020)
只是想补充一下,新文本Deep Learning Architectures A Mathematical Approach提到了这个结果,但我不确定它是否给出了证明。它确实提到了 Hanin ( http://arxiv.org/abs/1708.02691 ) 的改进结果,我认为它至少提供了部分证据。Hanin 的原始论文似乎也省略了一些证明,但发布的版本(https://www.mdpi.com/2227-7390/7/10/992/htm)可能更完整。