考虑一个极其复杂的前馈神经网络训练示例,但不需要计算效率或处理时间限制。
一个隐藏层应该拥有的最大隐藏神经元数量是多少,以检测来自具有n 个节点的前一层的输入数据之间的所有独特特征/相关性?
换句话说,如果我们想在隐藏层中创建一个包含大量神经元的神经网络,那么有助于网络训练的最大神经元数是多少(假设n 个神经元在前一层)?
考虑一个极其复杂的前馈神经网络训练示例,但不需要计算效率或处理时间限制。
一个隐藏层应该拥有的最大隐藏神经元数量是多少,以检测来自具有n 个节点的前一层的输入数据之间的所有独特特征/相关性?
换句话说,如果我们想在隐藏层中创建一个包含大量神经元的神经网络,那么有助于网络训练的最大神经元数是多少(假设n 个神经元在前一层)?
通用逼近定理指出:在人工神经网络的数学理论中,通用逼近定理指出,在温和假设下,具有包含有限数量神经元的单个隐藏层的前馈网络可以在 Rn 的紧凑子集上逼近连续函数关于激活函数。因此,该定理指出,当给定适当的参数时,简单的神经网络可以表示各种有趣的函数;但是,它没有涉及这些参数的算法可学习性。
很明显,如果你没有无限数量的隐藏神经元,你就不能用误差趋于 0。因此,如果我们假设前一层给出了要近似的函数的某种表示,您仍然需要无限的隐藏神经元来近似这个代表函数。
但是,如果我们进入数学逼近的基本物理定律,您可能会更清楚。
根据约瑟夫傅里叶的傅里叶定理: 傅里叶级数是一种将函数表示为简单正弦波之和的方法。更正式地说,它将任何周期函数或周期信号分解为一组(可能是无限的)简单振荡函数的加权和,即正弦和余弦(或等效地,复指数)。
所以理论上,如果你的函数是周期性的,它可能完全近似于一个激活函数,比如或者. 您不能使用激活的简单原因或者是因为它们是非周期性的,并且根据另一个称为傅立叶变换的相关定理,您将需要无限数量的正弦波来逼近非周期性曲线,因此问题本身就会崩溃。
由于除了梯度下降之外还有多种方法可以训练神经网络,从理论上讲,您可以使用其他一些方法(如果激活是正弦或余弦)来逼近周期函数,因此通过梯度下降之类的方法几乎是不可能的。
所以简而言之,你的问题的答案将是由于上述原因。