应用批量标准化的最常见做法是什么?

人工智能 深度学习 卷积神经网络 批量标准化
2021-11-14 12:05:27

对于深度神经网络,我通常应该在每个卷积层之后应用批量归一化吗?还是仅在其中一些之后?哪个?每 2 次、每 3 次、最低、最高等?

1个回答

在文学作品中,情况有所不同。您将看到模型仅在池化之后或之前执行此操作,有时您会在每次卷积之后看到它。

批量归一化对神经网络的帮助在很长一段时间内都没有被真正理解,最初它被认为有助于内部协变量偏移(由最初的论文假设:批量归一化:通过减少内部协变量偏移来加速深度网络训练),但最近已经与优化过程相关(批量标准化如何帮助优化?)。

这意味着,从架构的角度来看,很难正确假设应该如何使用它,除非你真的了解它对损失情况的影响以及你的优化过程将如何在一些初始化的情况下遍历它(顺便提一下,最近的一个Google 的论文表明,您可以通过了解批处理规范化解决的问题并尝试在初始化过程中缓解这些问题来完全减轻批量标准化的许多好处:Fixup Initialization)。

所以我会推荐 3 件事,直到更了解如何普遍使用它:

  1. 到处玩耍,变得活泼并进行实验。使用最有效的。
  2. 使用已知可以很好地工作的块特征化器,如残差块。在实践中得到证明,也可能对您有用。
  3. 做更多的研究和调查,如果你找到答案,你会帮助很多人:)