为什么 MLP 中隐藏层的激活函数必须是非多项式的?

人工智能 神经网络 激活函数 通用逼近定理
2021-11-14 10:46:14

在描述 MLP 或描述通用逼近定理的多篇文献中,该陈述非常具体地说明了激活函数是非多项式的。

为什么它不能是高阶多项式有什么原因吗?它只是尝试使用最简单的解决方案还是我们真的不能使用高阶多项式?

我可以理解非线性的原因,但我对非多项式要求一无所知。

1个回答

具有非多项式激活函数的多层前馈网络论文可以逼近任何函数(Leshno 等人,1993 年)提供了一个声称这一点的定理以及附录中的定理(相当长的)证明。

在快速阅读之后,在我看来,他们没有提供一个非常直观的解释来解释为什么(有界、非常量和不一定连续)激活函数的非多项式是必要和充分的(这是一个如果且仅如果结果,请参阅第 4 页的最后一段),以了解单层神经网络来逼近任何连续函数。

定理 (p. 10) 正式指出神经网络可以计算的所有可能函数的集合,表示为Σn, 是稠密C(Rn), 的连续函数集RnR(并且在C(Rn)是“神经网络可以逼近任何连续函数”的等效数学陈述)。要理解这一点,您需要了解什么是密集(子)集。要理解这一点,您需要了解什么是集合的闭包S是:直观地说,它是所有点的集合S加上集合附近的点S.

为了证明这个定理(第 12 页),他们分 7 步进行,所以这是一个很长的证明。

例如,在第 1 步中,他们显示(或仅声明)如果激活函数σ是多项式,那么Σn不稠密C(Rn). 他们得出的结论是Σn,具有这样的激活函数,将是一组多项式,在C(Rn)(不知道为什么会这样,但这里有一个老问题正好问这个问题;我认为理解这将是直观理解定理的重要一步)。

我现在不打算复习所有步骤,但是,如果你花一些时间阅读这篇论文,你应该会知道为什么激活函数的非多项式对于神经网络逼近任何形式的连续函数f:RnR. 如果这不是很有用,您可以尝试阅读其他相关(但更长)的论文Approximation theory of the MLP model in neural networks(Pinkus,1999 年)。

所以,我不会说非多项式是复杂性要求,而是逼近连续函数的理论要求。

(顺便说一句,我认为第 6 页有错字。他们写道fω:RRn表示神经网络计算的函数,但我很确定他们的意思fω:RnR; 事实上,之前,他们假设神经网络有n输入和1输出)。