一般来说,我应该用更少的神经元重新训练我的神经网络,以减少死亡的 ReLU 神经元吗?我读过关于死亡 ReLU 的相互矛盾的意见。一些消息来源说死 ReLU 是好的,因为它们鼓励稀疏。其他人说它们很糟糕,因为死掉的 ReLU 永远死了,并且抑制了学习。有快乐的媒介吗?
经过优化设计的神经网络在训练时是否包含零个“死”ReLU 神经元?
机器算法验证
机器学习
神经网络
卷积神经网络
2022-03-17 17:07:14
1个回答
死 ReLU 和对许多(但不是全部)输入保持沉默的 ReLU 之间存在差异。应避免死 ReLU,而大多数静默 ReLU 可能很有用,因为它们会导致稀疏性。
Dead ReLUs 已经进入了一个参数状态,它们总是在激活函数的负域中。例如,如果将偏差设置为较大的负值,则可能会发生这种情况。因为负值的激活函数为零,所以这些单元对所有输入都是无声的。当 ReLU 静默时,损失函数相对于参数的梯度为零,因此基于梯度的学习不会发生参数更新。因为死的 ReLU 对所有输入都是静默的,所以它们被困在这个机制中。
将此与对许多但不是所有输入保持沉默的 ReLU 进行对比。在这种情况下,当单元静止时,梯度仍然为零。如果我们使用像小批量/随机梯度下降这样的在线学习过程,则不会对导致单元静音的输入进行参数更新。但是,对于其他输入仍然可以进行更新,其中单元处于活动状态且梯度不为零。
因为死的 ReLU 对所有输入都是静默的,所以它们对网络没有任何贡献,并且被浪费了。从信息论的角度来看,对于所有输入(无论是否为零)具有相同输出值的任何单元都不会携带有关输入的信息。大多数静默 ReLU 对不同的输入表现不同,因此保持携带有用信息的能力。
其它你可能感兴趣的问题