这里的答案是指消失和爆炸梯度,已经在类似sigmoid
的激活函数中,但我猜Relu
它有一个缺点,它是它的预期值。的输出没有限制,Relu
因此其期望值不为零。我记得在它流行之前,Relu
它tanh
在机器学习专家中最受欢迎,而不是sigmoid
. 原因是 的期望值tanh
等于 0,它有助于在更深层的学习中更快地在神经网络中进行。Relu
没有这个特性,但是如果我们把它的衍生优势放在一边,为什么它工作得这么好。此外,我想导数也可能会受到影响。因为激活(输出Relu
) 参与计算更新规则。
为什么 ReLU 比其他激活函数更好
数据挖掘
机器学习
神经网络
深度学习
梯度下降
激活函数
2021-09-14 00:01:20
1个回答
ReLu 的最大优势确实是它的梯度不饱和,与 sigmoid / tanh 函数相比,它极大地加速了随机梯度下降的收敛(Krizhevsky 等人的论文)。
但这不是唯一的优势。这是关于 ReLu 激活和诱导正则化的稀疏效应的讨论。另一个不错的特性是,与涉及昂贵操作(指数等)的 tanh / sigmoid 神经元相比,ReLU 可以通过简单地将激活矩阵设为零来实现。
但我不相信现代神经网络的巨大成功仅归功于ReLu。新的初始化技术,例如 Xavier 初始化、dropout 和(后来的)batchnorm 也发挥了非常重要的作用。例如,著名的 AlexNet 使用了 ReLu和dropout 。
所以回答你的问题:ReLu 有很好的属性,虽然不是很理想。但是,当与其他伟大的技术结合使用时,它确实证明了自己,顺便解决了你提到的非零中心问题。
UPD:ReLu 输出确实不是以零为中心的,它确实会损害 NN 的性能。但是这个特殊问题可以通过其他正则化技术来解决,例如 batchnorm,它在激活之前对信号进行标准化:
我们通过归一化在非线性之前立即添加 BN 变换 . ...标准化它可能会产生具有稳定分布的激活。
其它你可能感兴趣的问题