我无法理解何时使用 ReLU、ELU 和 Leaky ReLU。它们如何与其他激活函数(如 sigmoid 和 tanh)以及它们的优缺点进行比较。
ReLU、ELU 和 Leaky ReLU 之间的区别。他们的优点和缺点主要
数据挖掘
机器学习
Python
深度学习
神经网络
激活函数
2022-02-27 23:22:58
1个回答
看看这个 ML 词汇表:
ELU
除了负输入外,ELU 与 RELU 非常相似。对于非负输入,它们都是恒等函数形式。另一方面,ELU 慢慢变得平滑,直到它的输出等于而 RELU 急剧平滑。
优点
- ELU 慢慢变得平滑,直到它的输出等于而 RELU 急剧平滑。
- ELU 是 ReLU 的强大替代品。
- 与 ReLU 不同,ELU 可以产生负输出。
缺点
- 为了,它可以在输出范围为 [0, inf] 的情况下炸毁激活。
ReLU
优点
- 它避免并纠正了消失的梯度问题。
- ReLu 的计算成本低于 tanh 和 sigmoid,因为它涉及更简单的数学运算。
缺点
- 它的限制之一是它只能在神经网络模型的隐藏层中使用。
- 一些梯度在训练过程中可能很脆弱并且可能会消失。它可能会导致权重更新,这将使其永远不会在任何数据点上再次激活。换句话说,ReLu 会导致神经元死亡。
- 换句话说,对于区域中的激活 () 的 ReLu,梯度将为 0,因为在下降过程中权重不会得到调整。这意味着,那些进入该状态的神经元将停止响应错误/输入的变化(仅仅因为梯度为 0,没有任何变化)。这被称为垂死的 ReLu 问题。
- ReLu 的范围是. 这意味着它可以破坏激活。
泄漏Relu
LeakyRelu 是 ReLU 的变体。而不是 0 时,一个泄漏的 ReLU 允许一个小的、非零的、恒定的梯度 α(通常,)。然而,目前尚不清楚跨任务收益的一致性。[1]
优点
- Leaky ReLU 是通过具有较小的负斜率(0.01 左右)来解决“垂死的 ReLU”问题的一种尝试。
缺点
- 由于它具有线性,不能用于复杂的分类。对于某些用例,它落后于 Sigmoid 和 Tanh。
进一步阅读
- 深入研究整流器:在 ImageNet 分类上超越人类水平的性能,Kaiming He 等人。(2015)
其它你可能感兴趣的问题