在卷积神经网络的一般情况下,哪种整流器更好,使用每种类型的经验规则如何?
- ReLU
- 前路
- RReLU
- ELU
- 泄漏的 ReLU
在卷积神经网络的一般情况下,哪种整流器更好,使用每种类型的经验规则如何?
我已经阅读了所有关于 PReLU、LeakyReLU (...) 的论文以及所有关于它如何改进这个和那个的声明,但一个肮脏的小秘密是:大多数时候它根本不重要,你不能去ReLU 大错特错 - 经验证明。我个人在许多不同的问题中都尝试过所有这些(从从头开始训练小型网络到在大型预训练模型中改变激活)我的猜测是梯度在其中任何一个中都不会消失,其余的几乎无关紧要。