我知道残差网络(ResNet)让 He 正常初始化很流行。在 ResNet 中,使用 He 正常初始化,而第一层使用 He 统一初始化。
我浏览了 ResNet 论文和“Delving Deep into Rectifiers”论文(他初始化论文),但我没有发现任何关于正常初始化与统一初始化的提及。
还:
Batch Normalization 允许我们使用更高的学习率,并且对初始化不那么小心。
在 Batch Normalization 论文的摘要中,据说 Batch Normalization 可以让我们在初始化时不那么小心。
ResNet 本身仍然关心何时使用普通初始化和统一初始化(而不是仅仅使用统一初始化)。
所以:
- 何时使用(He 或 Glorot)正态分布初始化而不是统一初始化?
- Batch Normalization 的正态分布初始化效果是什么?
旁注:
- 将普通初始化与批量标准化一起使用是押韵的,但我还没有找到任何论文来支持这一事实。
- 我知道 ResNet 使用 He init 而不是 Glorot init,因为 He init 在深度网络上表现更好。
- 我已经了解Glorot init 与 He init。
- 我的问题是关于 Normal vs Uniform init。