tanh 激活函数为:
其中 )定义为:。σ(x)σ(x)
问题:
是的,出于技术原因,这很重要。基本上是为了优化。LeCun 等人的Efficient Backprop值得一读。
这种选择有两个原因(假设您已经对数据进行了标准化,这非常重要):
tanh函数的范围是[-1,1],sigmoid函数的范围是[0,1]
非常感谢@jpmuc!受您的回答启发,我分别计算并绘制了 tanh 函数和标准 sigmoid 函数的导数。我想和大家分享。这是我得到的。这是 tanh 函数的导数。对于 [-1,1] 之间的输入,我们有 [0.42, 1] 之间的导数。
这是标准 sigmoid 函数 f(x)= 1/(1+exp(-x)) 的导数。对于 [0,1] 之间的输入,我们有 [0.20, 0.25] 之间的导数。
显然 tanh 函数提供了更强的梯度。