目前,最常用的激活函数是 ReLUs。所以我回答了这个问题,神经网络中激活函数的目的是什么?而且,在写下答案的时候,让我震惊的是,ReLU 究竟是如何逼近非线性函数的?
通过纯粹的数学定义,当然,由于急剧弯曲,它是一个非线性函数,但是,如果我们将自己限制在正或负部分-仅轴,然后在这些区域中是线性的。假设我们把整个-axis 也是,那么它也有点线性(不是严格的数学意义上的),因为它不能令人满意地逼近曲线函数,如正弦波() 通过 sigmoid 激活函数具有单节点隐藏层。
那么,在神经网络中使用 ReLU 并提供令人满意的性能这一事实背后的直觉是什么?非线性函数,比如 sigmoid 和 tanh,有时会被扔在 NN 的中间吗?
我不是在问 ReLU 的目的,即使它们是线性的。
根据@Eka 的评论,ReLu 的能力来自于 NN 深层的不连续性。这是否意味着 ReLU 是好的,只要我们在深度神经网络而不是浅神经网络中使用它?