神经网络的通用逼近定理是否适用于任何激活函数(sigmoid、ReLU、Softmax 等),还是仅限于 sigmoid 函数?
更新:正如 shimao 在评论中指出的那样,它绝对不适用于任何功能。那么它适用于哪一类激活函数呢?
神经网络的通用逼近定理是否适用于任何激活函数(sigmoid、ReLU、Softmax 等),还是仅限于 sigmoid 函数?
更新:正如 shimao 在评论中指出的那样,它绝对不适用于任何功能。那么它适用于哪一类激活函数呢?
维基百科文章有一个正式的声明。
设是一个非常量、有界和连续函数。
Kurt Hornik 1991 年的论文“多层前馈网络的近似能力”证明“标准多层前馈网络具有少至单个隐藏层以及任意有界和非常量激活函数是关于性能标准的通用逼近器,对于任意有限输入环境测量,只要有足够多的隐藏单元可用。” 换句话说,假设我们可以在神经网络中使用尽可能多的隐藏单元,激活函数是有界和非常数的假设足以逼近几乎任何函数。该论文应在此处提供:http: //zmjones.com/static/statistical-learning/hornik-nn-1991.pdf
我们必须区分浅层神经网络(一个隐藏层)和深层神经网络(多个隐藏层),因为它们是有区别的。
我在下面写的内容也可以在维基百科页面Universal Approximation Theorem上找到。
浅层神经网络: Pinkus 在1999 年表明,具有连续激活函数的浅层神经网络在紧集上具有通用逼近属性 当且仅当激活函数是非多项式的。同一篇文章提到,一些不连续函数也可以用作激活函数,同时保留网络的通用逼近属性。
深度神经网络:有多种不同的结果。其中之一是 Kidger 和 Lyon 的作品,来自2020 年。在这里,他们表明深度神经网络在紧集上具有通用逼近属性当它们的激活函数为:
这显示了深度神经网络和浅层神经网络之间的差异之一,即当激活函数是(非仿射)多项式时,深度神经网络仍然具有通用逼近属性。
在文章中,Kidger 和 Lyon 以多种方式扩展了结果。例如,他们表明,对于一些连续但无处可微的激活函数,结果仍然成立。