考虑到 x<0 的零梯度,为什么泄漏的 ReLU 总是比 ReLU 更可取?

数据挖掘 神经网络 梯度下降
2021-10-13 13:31:24

在我看来,泄漏的 ReLU应该有更好的性能,因为标准 ReLU 不能使用它的一半空间(x < 0,梯度为零)。但这不会发生,实际上大多数人使用标准 ReLU。

1个回答

引入 ReL 单元的一个原因是为了规避 sigmoid 单元在 -1 和 1 处梯度消失的问题。

ReL 单元的另一个优点是它们恰好在 0 处饱和,从而允许稀疏表示,这在将隐藏单元用作分类器的输入时会很有帮助。如果在基于梯度的场景中,当单元最初未被激活时,该单元从未激活,则零梯度可能会出现问题。

这个问题可以通过使用泄漏的 ReL 单元来缓解。另一方面,泄漏的 ReL 单元没有能力创建在某些情况下可能有用的硬零稀疏表示。因此,需要进行一些权衡,并且通常与 NN 一样,这取决于哪个单元性能更好的用例。在大多数情况下,如果初始设置可以确保激活 ReL 单元(例如,通过将偏差设置为小的正值),人们会期望 ReL 和泄漏的 Rel 单元执行非常相似。

此外,leaky RelU(如果是参数)引入了另一个参数(斜率 x<0) 需要在培训期间学习,因此增加了更多的复杂性/培训时间。