我正在研究一个带有 MNIST 手写数字数据集的 CNN 示例。目前我有卷积 -> 池 -> 密集 -> 密集,对于优化器,我正在使用批量大小为 32 的 Mini-Batch Gradient Descent。
现在正在引入这种批量标准化的概念。我们应该在一个层之后或之前取一个“批次”,并通过减去它的平均值并除以它的标准偏差来对其进行归一化。
那么什么是“批次”?如果我将样本输入 32 个内核卷积层,我会得到 32 个特征图。
- 每个特征图都是一个“批次”吗?
- 32 个特征图是“批次”吗?
或者,如果我正在使用批量大小为 64 的 Mini-Batch Gradient Descent,
- 64 组 32 个特征图是“批次”吗?那么换句话说,来自 Mini-Batch Gradient Descent 的批次与来自批次优化的“批次”相同吗?
还是我错过了其他“批次”?