我想知道高级激活层的好处,例如 LeakyReLU、参数 ReLU 和指数线性单元 (ELU)。它们之间有什么区别以及它们如何使培训受益?
深度神经网络中的高级激活层
数据挖掘
机器学习
神经网络
深度学习
2021-09-23 17:44:14
1个回答
ReLU
简单地纠正输入,这意味着正输入被保留,而负输入则输出为零。(Hahnloser 等人,2010 年)
优点:
- 消除消失/爆炸梯度问题。(以下所有内容也是如此)
- 稀疏激活。(以下所有内容也是如此)
- 抗噪去激活状态(即不尝试对缺失程度进行编码)。
缺点:
- Dying ReLU 问题(许多神经元最终处于对大多数或所有输入都处于非活动状态的状态)。
- 不可微分。(以下所有内容也是如此)
- 没有负值意味着平均单位激活通常远离零。这会减慢学习速度。
泄漏的 ReLU
添加一个小系数 () 为负值。(Maas、Hannun 和 Ng,2013 年)
优点:
- 缓解死亡 ReLU 问题。(以下所有内容均为真)
- 负激活使平均单位激活更接近于零,从而加快了学习速度。(以下所有内容均为真)
缺点:
- 去激活状态不是抗噪声的(即去激活中的噪声导致不同程度的缺席)。
PReLU
就像 Leaky ReLU 一样,但具有可学习的系数。(请注意,在下面的等式中,不同的可以针对不同的渠道学习。)(He et al. 2015)
优点:
- 与 Leaky ReLU 相比,性能提高(基准任务的错误率更低)。
缺点:
- 去激活状态不是抗噪声的(即去激活中的噪声导致不同程度的缺席)。
ELU
用消失梯度替换 Leaky ReLU 和 PReLU 的小线性梯度。(聪明的,Unterthiner,Hochreiter 2016)
优点:
- 与 ReLU 相比,性能提高(错误更低,学习更快)。
- 停用状态是抗噪的。
其它你可能感兴趣的问题