深度神经网络中的高级激活层

数据挖掘 机器学习 神经网络 深度学习
2021-09-23 17:44:14

我想知道高级激活层的好处,例如 LeakyReLU、参数 ReLU 和指数线性单元 (ELU)。它们之间有什么区别以及它们如何使培训受益?

1个回答

ReLU

简单地纠正输入,这意味着正输入被保留,而负输入则输出为零。(Hahnloser 等人,2010 年)

f(x)=max(0,x)
优点:

  • 消除消失/爆炸梯度问题。(以下所有内容也是如此)
  • 稀疏激活。(以下所有内容也是如此)
  • 抗噪去激活状态(即不尝试对缺失程度进行编码)。

缺点:

  • Dying ReLU 问题(许多神经元最终处于对大多数或所有输入都处于非活动状态的状态)。
  • 不可微分。(以下所有内容也是如此)
  • 没有负值意味着平均单位激活通常远离零。这会减慢学习速度。

泄漏的 ReLU

添加一个小系数 (<1) 为负值。(Maas、Hannun 和 Ng,2013 年)

f(x)={xif x00.1xotherwise

优点:

  • 缓解死亡 ReLU 问题。(以下所有内容均为真)
  • 负激活使平均单位激活更接近于零,从而加快了学习速度。(以下所有内容均为真)

缺点:

  • 去激活状态不是抗噪声的(即去激活中的噪声导致不同程度的缺席)。

PReLU

就像 Leaky ReLU 一样,但具有可学习的系数。(请注意,在下面的等式中,不同的a可以针对不同的渠道学习。)(He et al. 2015)

f(x)={xif x0axotherwise

优点:

  • 与 Leaky ReLU 相比,性能提高(基准任务的错误率更低)。

缺点:

  • 去激活状态不是抗噪声的(即去激活中的噪声导致不同程度的缺席)。

ELU

f(x)={xif x0α(exp(x)1)otherwise

用消失梯度替换 Leaky ReLU 和 PReLU 的小线性梯度。(聪明的,Unterthiner,Hochreiter 2016)

优点:

  • 与 ReLU 相比,性能提高(错误更低,学习更快)。
  • 停用状态是抗噪的。