梯度消失与死亡 ReLU?

机器算法验证 神经网络 深度学习
2022-03-28 02:07:37

很多人声称使用 ReLU 来解决梯度消失问题,但死亡 ReLU 不是更严重的问题吗?并且有人还声称 ELU 表现更好,但 ELU 不也会遭受梯度消失的困扰吗?PReLU 似乎避免了这个问题,但它并不是很受欢迎。有什么问题?

1个回答

ELU 和 ReLU 在“左侧”都有零或消失的梯度。这仍然是一个明显的背离tanh或逻辑单元,因为这些功能是上下限定的;对于 ELU 和 ReLU 单元,“右侧”的梯度更新会更大。作为演示,计算每个的导数并注意逻辑和tanh单位通常在 0 左右的某个区间内具有较小的输入梯度,例如[2,2]比 ELU 和 PReLU;tanh仅在零处获得 1 的梯度,而逻辑单元根本没有!另一方面,对于所有正输入,ReLU/ELU/PReLU 的梯度为 1。

另一方面,PReLU 避免在任何地方都有零梯度是正确的。我不知道有一项研究详尽地比较了 ELU、ReLU 和 PReLU 单元。在神经网络中的这些实际创新与对它们为何运作良好的理论理解之间还有很长的路要走。