数据挖掘 - 与多层网络中的 sigmoid 激活函数相比，整流线性 (relu) 有哪些优势？ - 吾爱随笔录

与多层网络中的 sigmoid 激活函数相比，整流线性 (relu) 有哪些优势？

数据挖掘深度学习

2021-10-03 04:13:59

非线性的最新技术是在深度神经网络中使用整流线性单元（ReLU）而不是 sigmoid 函数。有什么优势？

2个回答

sigmoid 函数渐近为零或一，这意味着对于具有大绝对值的输入，梯度接近于零。
这使得 sigmoid 函数容易出现梯度消失问题，而 ReLU 并没有受到太大影响。

此外，ReLU 有一个属性，根据您接近的角度，可以将其视为正数和负数。ReLU 实际上是一个对于负输入为零且对于正输入为恒等的函数，这意味着很容易将零作为输出，这会导致神经元死亡。然而，死神经元听起来可能很糟糕，但在许多情况下，这并不是因为它允许稀疏。在某种程度上，ReLU 做了与 L1 正则化类似的工作，这将使一些权重为零，这反过来意味着稀疏解决方案。
稀疏性在很多时候会导致模型更好地泛化，但有时会对性能产生负面影响，所以这取决于。
使用 ReLU 时的一个好的做法是将偏差初始化为一个较小的数字而不是零，这样您就可以避免在神经网络训练开始时出现死神经元，这通常可能会阻止训练。

为了补充 George Pligor 的评论，在使用 ReLU 时使用 Xavier 权重初始化是一个好主意。这是对这个想法的描述：http: //andyljones.tumblr.com/post/110998971763/an-explanation-of-xavier-initialization

其它你可能感兴趣的问题

上一篇线性判别分析，可以在交叉验证设置中调整哪些参数？下一篇识别时间序列数据的趋势和季节性