批量归一化和 ReLU 都是梯度消失问题的解决方案。如果我们使用批量标准化,那么我们应该使用 sigmoid 吗?或者,即使在使用 batchnorm 时,ReLU 是否也有一些特性让它们变得有价值?
我想在 batchnorm 中完成的标准化将发送零激活负数。这是否意味着 batchnorm 解决了“dead ReLU”问题?
但是 tanh 和logistic 的连续性仍然很有吸引力。如果我使用的是 batchnorm,tanh 会比 ReLU 更好吗?
我确信答案取决于。那么,在您的经验中,什么是有效的,您的应用程序的显着特点是什么?