为什么 ReLU 比其他激活函数更好

数据挖掘 机器学习 神经网络 深度学习 梯度下降 激活函数
2021-09-14 00:01:20

这里的答案是指消失和爆炸梯度,已经在类似sigmoid的激活函数中,但我猜Relu它有一个缺点,它是它的预期值。的输出没有限制,Relu因此其期望值不为零。我记得在它流行之前,Relutanh在机器学习专家中最受欢迎,而不是sigmoid. 原因是 的期望值tanh等于 0,它有助于在更深层的学习中更快地在神经网络中进行。Relu没有这个特性,但是如果我们把它的衍生优势放在一边,为什么它工作得这么好。此外,我想导数也可能会受到影响。因为激活(输出Relu) 参与计算更新规则。

1个回答

ReLu 的最大优势确实是它的梯度不饱和,与 sigmoid / tanh 函数相比,它极大地加速了随机梯度下降的收敛(Krizhevsky 等人的论文)。

但这不是唯一的优势。是关于 ReLu 激活和诱导正则化的稀疏效应的讨论。另一个不错的特性是,与涉及昂贵操作(指数等)的 tanh / sigmoid 神经元相比,ReLU 可以通过简单地将激活矩阵设为零来实现。

但我不相信现代神经网络的巨大成功仅归功于ReLu新的初始化技术,例如 Xavier 初始化、dropout 和(后来的)batchnorm 也发挥了非常重要的作用。例如,著名的 AlexNet 使用了 ReLudropout 。

所以回答你的问题:ReLu 有很好的属性,虽然不是很理想但是,当与其他伟大的技术结合使用时,它确实证明了自己,顺便解决了你提到的非零中心问题。

UPD:ReLu 输出确实不是以零为中心的,它确实会损害 NN 的性能。但是这个特殊问题可以通过其他正则化技术来解决,例如 batchnorm,它在激活之前对信号进行标准化

我们通过归一化在非线性之前立即添加 BN 变换 x=Wu+b. ...标准化它可能会产生具有稳定分布的激活。