数据挖掘 - hard-sigmoid函数和消失梯度下降问题有什么关系？ - 吾爱随笔录

数据挖掘神经网络

2022-03-05 08:24:55

我认为当激活函数的导数小于1时会出现梯度消失的问题。神经网络越深，f' * f' * f'...操作会导致梯度更接近于零。

但是，如果我们使用 hard-sigmoid 作为激活函数（其导数为 0 或 1），则可以解决梯度消失问题。

我认为死亡问题（导数 = 0 @ ReLU）与梯度消失问题不同。

这样对吗？

1个回答

梯度消失问题出现在激活函数中，这些激活函数将其输入压缩在一个非常小的输出范围内，如 sigmoids 和 tanh。输入范围很大，因此它落入 sigmoid 的挤压部分的概率非常高。链接几个 sigmoid，那里你有消失的梯度，

这种类型的激活的典型示例是 sigmoid 和双曲正切。硬 sigmoid 也不例外。它们与普通 sigmoid 的主要区别在于它们的计算成本更低。

ReLU 是不同的。它们的范围有一半是线性的。这就是为什么它们不会遭受梯度消失的影响。但是，他们有自己的问题：即将死去的 ReLU。当输入落在左侧很远并且无法逃脱时，就会发生这种情况。

其它你可能感兴趣的问题