与多层网络中的 sigmoid 激活函数相比,整流线性 (relu) 有哪些优势?

数据挖掘 深度学习
2021-10-03 04:13:59

非线性的最新技术是在深度神经网络中使用整流线性单元(ReLU)而不是 sigmoid 函数。有什么优势?

2个回答

sigmoid 函数渐近为零或一,这意味着对于具有大绝对值的输入,梯度接近于零。
这使得 sigmoid 函数容易出现梯度消失问题,而 ReLU 并没有受到太大影响。

此外,ReLU 有一个属性,根据您接近的角度,可以将其视为正数和负数。ReLU 实际上是一个对于负输入为零且对于正输入为恒等的函数,这意味着很容易将零作为输出,这会导致神经元死亡。然而,死神经元听起来可能很糟糕,但在许多情况下,这并不是因为它允许稀疏。在某种程度上,ReLU 做了与 L1 正则化类似的工作,这将使一些权重为零,这反过来意味着稀疏解决方案。
稀疏性在很多时候会导致模型更好地泛化,但有时会对性能产生负面影响,所以这取决于。
使用 ReLU 时的一个好的做法是将偏差初始化为一个较小的数字而不是零,这样您就可以避免在神经网络训练开始时出现死神经元,这通常可能会阻止训练。

为了补充 George Pligor 的评论,在使用 ReLU 时使用 Xavier 权重初始化是一个好主意。这是对这个想法的描述:http: //andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization