数据挖掘 - 为什么 ReLU 比其他激活函数更好 - 吾爱随笔录

为什么 ReLU 比其他激活函数更好

数据挖掘机器学习神经网络深度学习梯度下降激活函数

2021-09-14 00:01:20

这里的答案是指消失和爆炸梯度，已经在类似sigmoid的激活函数中，但我猜Relu它有一个缺点，它是它的预期值。的输出没有限制，Relu因此其期望值不为零。我记得在它流行之前，Relu它tanh在机器学习专家中最受欢迎，而不是sigmoid. 原因是的期望值tanh等于 0，它有助于在更深层的学习中更快地在神经网络中进行。Relu没有这个特性，但是如果我们把它的衍生优势放在一边，为什么它工作得这么好。此外，我想导数也可能会受到影响。因为激活（输出Relu) 参与计算更新规则。

1个回答

ReLu 的最大优势确实是它的梯度不饱和，与 sigmoid / tanh 函数相比，它极大地加速了随机梯度下降的收敛（Krizhevsky 等人的论文）。

但这不是唯一的优势。这是关于 ReLu 激活和诱导正则化的稀疏效应的讨论。另一个不错的特性是，与涉及昂贵操作（指数等）的 tanh / sigmoid 神经元相比，ReLU 可以通过简单地将激活矩阵设为零来实现。

但我不相信现代神经网络的巨大成功仅归功于ReLu。新的初始化技术，例如 Xavier 初始化、dropout 和（后来的）batchnorm 也发挥了非常重要的作用。例如，著名的 AlexNet 使用了 ReLu和dropout 。

所以回答你的问题：ReLu 有很好的属性，虽然不是很理想。但是，当与其他伟大的技术结合使用时，它确实证明了自己，顺便解决了你提到的非零中心问题。

UPD：ReLu 输出确实不是以零为中心的，它确实会损害 NN 的性能。但是这个特殊问题可以通过其他正则化技术来解决，例如 batchnorm，它在激活之前对信号进行标准化：

我们通过归一化在非线性之前立即添加 BN 变换 $x = Wu+ b$ . ...标准化它可能会产生具有稳定分布的激活。

其它你可能感兴趣的问题

上一篇在 SVM 算法中，为什么向量 w 与分离超平面正交？下一篇如何对未知特征进行特征工程？