这函数是神经网络中常用的激活函数。然而,已经表明它可能会遭受垂死的 Relu 问题(另请参阅什么是神经网络中的“垂死的 ReLU”问题?)
考虑到 ReLU 函数的这个问题以及使用leaky ReLU的常见建议,为什么到今天 ReLU 仍然是现代深度学习架构中最常用的激活函数?只是一个在实践中不常出现的理论问题吗?如果是这样,为什么它在实践中不经常发生?是因为随着网络的宽度变大,死亡 ReLU 的概率会变小(请参阅Dying ReLU 和初始化:理论和数值示例 )?
由于梯度消失问题,我们远离了 sigmoid 和 tanh 激活函数,并由于梯度爆炸而避免了 RNN,但似乎我们还没有远离 ReLU 和它们的死梯度?我想更深入地了解原因。