我正在阅读斯坦福关于该主题的教程,并且我已经达到了这一部分,“训练神经网络”。到现在为止还挺好。我几乎什么都懂。
我想用 Leaky ReLU 改变他在那里使用的 ReLU。我的问题是,我是否必须改变他进行反向传播的方式?如果我使用 Leaky ReLU,这些导数将如何变化?
有什么论文准确地说明了当我们有 Leaky ReLU 时如何完成 back prop?
我正在阅读斯坦福关于该主题的教程,并且我已经达到了这一部分,“训练神经网络”。到现在为止还挺好。我几乎什么都懂。
我想用 Leaky ReLU 改变他在那里使用的 ReLU。我的问题是,我是否必须改变他进行反向传播的方式?如果我使用 Leaky ReLU,这些导数将如何变化?
有什么论文准确地说明了当我们有 Leaky ReLU 时如何完成 back prop?
ReLU 的导数对于 x < 0 为 0,对于 x > 0 为 1。如果泄漏的 ReLU 对于负值具有斜率,例如 0.5,则对于 x < 0,导数将为 0.5,对于 x > 0,导数为 1。
对于某些,我们有泄漏的 relu除非 ,否则
泄漏的 ReLU 函数在处不可微。
通常,选择。的特例是普通的ReLU,的特例只是恒等函数。选择意味着许多此类层的组合可能会呈现爆炸梯度,这是不希望的。此外,选择会使成为形状类似于的非单调函数。非单调函数最近变得越来越流行(例如,mish 和 swish),但我不知道对非单调泄漏 ReLU 的研究。