ReLU、ELU 和 Leaky ReLU 之间的区别。他们的优点和缺点主要

数据挖掘 机器学习 Python 深度学习 神经网络 激活函数
2022-02-27 23:22:58

我无法理解何时使用 ReLU、ELU 和 Leaky ReLU。它们如何与其他激活函数(如 sigmoid 和 tanh)以及它们的优缺点进行比较。

1个回答

看看这个 ML 词汇表

ELU

除了负输入外,ELU 与 RELU 非常相似。对于非负输入,它们都是恒等函数形式。另一方面,ELU 慢慢变得平滑,直到它的输出等于α而 RELU 急剧平滑。

优点

  • ELU 慢慢变得平滑,直到它的输出等于α而 RELU 急剧平滑。
  • ELU 是 ReLU 的强大替代品。
  • 与 ReLU 不同,ELU 可以产生负输出。

缺点

  • 为了x>0,它可以在输出范围为 [0, inf] 的情况下炸毁激活。

ReLU

优点

  • 它避免并纠正了消失的梯度问题。
  • ReLu 的计算成本低于 tanh 和 sigmoid,因为它涉及更简单的数学运算。

缺点

  • 它的限制之一是它只能在神经网络模型的隐藏层中使用。
  • 一些梯度在训练过程中可能很脆弱并且可能会消失。它可能会导致权重更新,这将使其永远不会在任何数据点上再次激活。换句话说,ReLu 会导致神经元死亡。
  • 换句话说,对于区域中的激活 (x<0) 的 ReLu,梯度将为 0,因为在下降过程中权重不会得到调整。这意味着,那些进入该状态的神经元将停止响应错误/输入的变化(仅仅因为梯度为 0,没有任何变化)。这被称为垂死的 ReLu 问题。
  • ReLu 的范围是[0,). 这意味着它可以破坏激活。

泄漏Relu

LeakyRelu 是 ReLU 的变体。而不是 0 时z<0,一个泄漏的 ReLU 允许一个小的、非零的、恒定的梯度 α(通常,α=0.01)。然而,目前尚不清楚跨任务收益的一致性。[1]

优点

  • Leaky ReLU 是通过具有较小的负斜率(0.01 左右)来解决“垂死的 ReLU”问题的一种尝试。

缺点

  • 由于它具有线性,不能用于复杂的分类。对于某些用例,它落后于 Sigmoid 和 Tanh。

进一步阅读

  • 深入研究整流器:在 ImageNet 分类上超越人类水平的性能,Kaiming He 等人。(2015)