让我们假设一个用于分类的普通 MLP,具有给定的隐藏层激活函数。
我知道如果 sigmoid 是激活函数,将网络的输入规范化在 0 和 1 之间是一种已知的最佳实践,如果 tanh 是激活函数,则将网络的输入规范化为 -0.5 和 0.5。
ReLu 呢?
我应该将网络输入标准化为 0 和 1、-0.5 和 0.5 还是 -1 和 1
那里有任何已知的最佳实践吗?
我不是在谈论 ReLu 输入的规范化,例如在 ReLu 之前或之后使用 Batch Normalization:https ://arxiv.org/pdf/1508.00330
但我说的是标准化整个网络的输入。