ReLU 导数 - 二阶效应

机器算法验证 神经网络 反向传播
2022-04-10 23:52:46

我正在阅读深度学习书,其中有一节是关于ReLU 的概括(第 6.3.1 节)。

它指出:

整流运算的二阶导数几乎处处为 0,整流运算的导数处处为 1,单元处于活动状态。这意味着梯度方向对于学习来说比使用引入二阶效应的激活函数更有用。

然后我阅读了一篇关于二阶效应的简短论文,这证实了我的记忆,二阶效应可以帮助优化以更有效地运行。

然后我想知道为什么这本书如此笼统地说没有二阶效应的激活函数的梯度方向比那些有二阶效应的激活函数更有用?

是不是一阶梯度(在这种情况下是 ReLU 的)必须因此编码所有梯度信息,因此尽可能高效?ReLU 的二阶导数为零这一事实当然意味着梯度信息仅存储在它的一阶导数中,因为二阶的零值不有助于梯度下降计算,因为零项不能改变权重。

谁能在这里解释作者的想法,或者推荐任何关于激活函数二阶效应的文献?

0个回答
没有发现任何回复~