数据挖掘 - 考虑到 x<0 的零梯度，为什么泄漏的 ReLU 总是比 ReLU 更可取？ - 吾爱随笔录

考虑到 x<0 的零梯度，为什么泄漏的 ReLU 总是比 ReLU 更可取？

数据挖掘神经网络梯度下降

2021-10-13 13:31:24

在我看来，泄漏的 ReLU应该有更好的性能，因为标准 ReLU 不能使用它的一半空间（x < 0，梯度为零）。但这不会发生，实际上大多数人使用标准 ReLU。

1个回答

引入 ReL 单元的一个原因是为了规避 sigmoid 单元在 -1 和 1 处梯度消失的问题。

ReL 单元的另一个优点是它们恰好在 0 处饱和，从而允许稀疏表示，这在将隐藏单元用作分类器的输入时会很有帮助。如果在基于梯度的场景中，当单元最初未被激活时，该单元从未激活，则零梯度可能会出现问题。

这个问题可以通过使用泄漏的 ReL 单元来缓解。另一方面，泄漏的 ReL 单元没有能力创建在某些情况下可能有用的硬零稀疏表示。因此，需要进行一些权衡，并且通常与 NN 一样，这取决于哪个单元性能更好的用例。在大多数情况下，如果初始设置可以确保激活 ReL 单元（例如，通过将偏差设置为小的正值），人们会期望 ReL 和泄漏的 Rel 单元执行非常相似。

此外，leaky RelU（如果是参数）引入了另一个参数（斜率 $x<0$ ) 需要在培训期间学习，因此增加了更多的复杂性/培训时间。

其它你可能感兴趣的问题

上一篇此图表的名称是什么，它通过分配到类层次结构来拆分数量？下一篇拼写检查的算法和技术