如果我们使用产生足够大的正(或负)输出的全连接层,为什么 sigmoid 函数会为 1(和 0)?

人工智能 神经网络 机器学习 深度学习 激活函数 乙状结肠
2021-11-11 11:50:05

我正在使用一个使用 sigmoid 激活函数的完全连接的神经网络。如果我们输入足够大的输入,sigmoid 函数最终会变为 1 或 0。有什么解决方案可以避免这种情况吗?

这会导致经典的 sigmoid 问题消失梯度或爆炸梯度吗?

1个回答

一般来说,最好不要在任何隐藏层中使用 sigmoid 函数。还有许多其他不错的选择,例如 ReLU 和 ELU。但是,如果出于任何原因您必须使用类似 sigmoid 的函数,则使用 Tanh 函数,至少它的均值约为 0。