人工智能 - 残差神经网络可以使用其他不同于 ReLU 的激活函数吗？ - 吾爱随笔录

残差神经网络可以使用其他不同于 ReLU 的激活函数吗？

人工智能神经网络卷积神经网络激活函数雷路残差网络

2021-10-30 19:20:52

在许多图中，如下所示，残差神经网络仅使用 ReLU 激活函数来描述，但残差神经网络是否也可以使用其他激活函数，例如 sigmoid、双曲正切等？

1个回答

某些激活函数（例如 sigmoid）的问题在于它们将输入压缩到有限区间（即它们有时被归类为饱和激活函数）。例如，sigmoid 函数有 codomain $[0, 1]$ ，如下图所示。

这种属性/行为可能导致梯度消失问题（这是 LSTM 的作者 Sepp Hochreiter 在开发 LSTM 时试图在递归神经网络的背景下解决的问题之一，以及他的顾问，施米德胡伯）。

根据经验，人们已经注意到 ReLU 可以避免这种梯度消失的问题。参见例如这篇博文。论文Deep Sparse Rectifier Neural Networks提供了有关 ReLU（又名整流器）优势的更多详细信息，因此您可能需要阅读它。然而，ReLUs 也可能遇到另一个（相反的）问题，即梯度爆炸问题。然而，有几种方法可以解决这个问题。参见例如这篇博文。

话虽如此，我不是残差网络方面的专家，但我认为他们使用 ReLU 来进一步避免梯度消失问题。这个答案（我前段时间给出的）应该让你对为什么残差网络可以避免梯度消失问题有一些直觉。

其它你可能感兴趣的问题

上一篇与 WGAN 相比，GAN 中模式崩溃的原因是什么？下一篇表格强化学习方法是否已过时（或已过时）？