没有梯度消失功能的 Relu 是可能的吗?

数据挖掘 机器学习 激活函数
2022-03-01 11:48:32

我是 ML 的初学者。在ANN中,relu在x>0时的梯度为1

但是,我想知道 x=<0 relu 的梯度为 0,并且在深度神经网络中可能存在梯度消失问题。

如果像y=x(for the all the x)这样的激活函数没有梯度消失问题,为什么我们不在深度神经网络中使用这个函数?y=x(对于所有 x)有什么副作用吗?(也许,深度神经网络中的权重可能会无穷大......但是,我认为这个问题也发生在 ReLU 中。所以这不是问题(我认为。))

1个回答

如果您使用像 y=x 这样的激活,那么您的模型是一个简单的线性模型。具有这种激活的多层将等效/减少为仅具有线性激活的一层!因此,您只能使用这种类型的模型令人满意地映射线性函数。为了能够学习复杂的非线性函数,您需要使用多个层之间的非线性激活来使整个模型非线性

为了防止梯度消失问题,有一种称为 Leaky ReLU 的 relu 变体。此激活与 x 的正区域中的 relu 相同。对于 x 的负值区域,它是一个具有小斜率(例如 0.2)的线性函数。这使得 Leaky ReLU 在 x=0 点成为非线性激活。