神经网络中单调激活函数相对于非单调函数的优势?

数据挖掘 机器学习 神经网络 深度学习 激活函数
2021-10-03 04:07:23

在神经网络中使用单调激活函数相对于非单调函数有什么优势?

  • 它们是否比非单调的表现更好?
  • 这是在数学上证明的吗?
  • 是否有与此相关的论文/参考资料?
2个回答

我不知道关于这个主题的任何论文,但直观地说,使用单调激活函数很有意义。假设我们有一个非单调的激活函数,可能是一个高斯核,对称X=0 但滑向 F(X)=0如果 x 在任一侧偏离 0。如果我们有一个样本输入到我们的网络中,当我们的激活度很高时表现不佳,我们希望更改节点的输入以提供较低的激活度。在非单调激活的情况下,我们是要减少还是增加输入取决于输入是正还是负,并且主要取决于我们的权重初始化。

这使得学习更加困难,因为如果另一个样本也需要它更低但位于顶部的另一侧,反向传播将尝试将输入映射到另一侧。大多数时候,最好的解决方案是将所有东西放在顶部的一侧,使其再次单调。另一种看待它的方式是单调有点一对一(不完全正确,例如 ReLU)。这意味着两个非常不同的输入不会映射到相同的输出,除非两者之间的所有内容也都映射到那里。

这是一个带有一些链接的类似问题:(为什么)激活函数必须是单调的?

除了计算原因之外,您还可以阅读有关生物神经网络的信息以了解这一点:

在神经科学中,生物神经网络是一系列相互连接的神经元,其激活定义了一个可识别的线性通路。神经元与其邻居相互作用的界面通常由几个轴突末端组成,这些轴突末端通过突触连接到其他神经元上的树突。如果输入到一个神经元的信号总和超过某个阈值,则神经元会在轴突小丘处发送动作电位 (AP),并沿轴突传输此电信号。

由于神经元的激活取决于输入的总和,因此激活函数是一个递增函数在生物学上是有意义的。