hard-sigmoid函数和消失梯度下降问题有什么关系?

数据挖掘 神经网络
2022-03-05 08:24:55

我认为当激活函数的导数小于1时会出现梯度消失的问题。神经网络越深,f' * f' * f'...操作会导致梯度更接近于零。

但是,如果我们使用 hard-sigmoid 作为激活函数(其导数为 0 或 1),则可以解决梯度消失问题。

我认为死亡问题(导数 = 0 @ ReLU)与梯度消失问题不同。

这样对吗?

1个回答

梯度消失问题出现在激活函数中,这些激活函数将其输入压缩在一个非常小的输出范围内,如 sigmoids 和 tanh。输入范围很大,因此它落入 sigmoid 的挤压部分的概率非常高。链接几个 sigmoid,那里你有消失的梯度,

这种类型的激活的典型示例是 sigmoid 和双曲正切。硬 sigmoid 也不例外。它们与普通 sigmoid 的主要区别在于它们的计算成本更低。

ReLU 是不同的。它们的范围有一半是线性的。这就是为什么它们不会遭受梯度消失的影响。但是,他们有自己的问题:即将死去的 ReLU。当输入落在左侧很远并且无法逃脱时,就会发生这种情况。