人们经常提到整流线性单元 (ReLU) 已经取代了 softplus 单元,因为它们是线性的并且计算速度更快。
softplus 是否仍然具有诱导稀疏性的优势,还是仅限于 ReLU?
我问的原因是我想知道 ReLU 的零斜率的负面影响。这个属性不是将单位“困”在零,让它们有重新激活的可能性可能是有益的吗?
使用 ReLU 而不是 softplus 作为激活函数有什么好处?
机器算法验证
机器学习
神经网络
2022-02-12 22:12:13
3个回答
我在深度学习一书的第 6.3.3 节中找到了您问题的答案。(Goodfellow 等人,2016 年):
通常不鼓励使用 softplus。...人们可能会认为它比整流器具有优势,因为它在任何地方都是可微的,或者由于饱和不太完全,但从经验上看并非如此。
作为支持这一主张的参考,他们引用了论文Deep Sparse Rectifier Neural Networks (Glorot et. al, 2011)。
ReLU 确实可以永久关闭,尤其是在高学习率的情况下。这是leaky ReLU 和 ELU 激活背后的动机,它们几乎在任何地方都具有非零梯度。
Leaky ReLU 是一个分段线性函数,就像 ReLU 一样,计算速度非常快。ELU 相对于 softmax 和 ReLU 的优势在于它的平均输出更接近于零,从而提高了学习能力。
ReLU 比 Softplus 工作得更好的主要原因是,对于 ReLU,我们在模型中有稀疏性的想法。这意味着模型的一些神经元输出零,这对下一层没有任何影响。这个想法有点像 Dropout。隐藏层中的神经元学习隐藏的概念。如果输入不包含相应的概念,一些神经元将输出零,它们将不会参与下一层的计算。这个想法不能在 Softplus 中,因为输出不能像 ReLU 一样为零。