数据挖掘 - ReLU、ELU 和 Leaky ReLU 之间的区别。他们的优点和缺点主要 - 吾爱随笔录

ReLU、ELU 和 Leaky ReLU 之间的区别。他们的优点和缺点主要

数据挖掘机器学习 Python 深度学习神经网络激活函数

2022-02-27 23:22:58

我无法理解何时使用 ReLU、ELU 和 Leaky ReLU。它们如何与其他激活函数（如 sigmoid 和 tanh）以及它们的优缺点进行比较。

1个回答

ELU

除了负输入外，ELU 与 RELU 非常相似。对于非负输入，它们都是恒等函数形式。另一方面，ELU 慢慢变得平滑，直到它的输出等于 $-\alpha$ 而 RELU 急剧平滑。

优点

ELU 慢慢变得平滑，直到它的输出等于 $-\alpha$ 而 RELU 急剧平滑。

ELU 是 ReLU 的强大替代品。

与 ReLU 不同，ELU 可以产生负输出。

缺点

为了 $x > 0$ ，它可以在输出范围为 [0, inf] 的情况下炸毁激活。

ReLU

优点

它避免并纠正了消失的梯度问题。

ReLu 的计算成本低于 tanh 和 sigmoid，因为它涉及更简单的数学运算。

缺点

它的限制之一是它只能在神经网络模型的隐藏层中使用。

一些梯度在训练过程中可能很脆弱并且可能会消失。它可能会导致权重更新，这将使其永远不会在任何数据点上再次激活。换句话说，ReLu 会导致神经元死亡。

换句话说，对于区域中的激活 ( $x<0$ ) 的 ReLu，梯度将为 0，因为在下降过程中权重不会得到调整。这意味着，那些进入该状态的神经元将停止响应错误/输入的变化（仅仅因为梯度为 0，没有任何变化）。这被称为垂死的 ReLu 问题。

ReLu 的范围是 $[0,\infty)$ . 这意味着它可以破坏激活。

泄漏Relu

LeakyRelu 是 ReLU 的变体。而不是 0 时 $z<0$ ，一个泄漏的 ReLU 允许一个小的、非零的、恒定的梯度 α（通常， $\alpha=0.01$ ）。然而，目前尚不清楚跨任务收益的一致性。[1]

优点

Leaky ReLU 是通过具有较小的负斜率（0.01 左右）来解决“垂死的 ReLU”问题的一种尝试。

缺点

由于它具有线性，不能用于复杂的分类。对于某些用例，它落后于 Sigmoid 和 Tanh。

进一步阅读

深入研究整流器：在 ImageNet 分类上超越人类水平的性能，Kaiming He 等人。(2015)

其它你可能感兴趣的问题

上一篇将 nan 替换为值序列下一篇scikit-learn OneHot 返回元组而不是向量