问题
为了让 CNN 识别图像,为什么不使用整个批次数据而不是每个特征来计算 Batch Normalization 中的平均值?
当每个特征独立时,需要使用每个特征。然而,对于 CNN,具有 8 位颜色的 RGB 通道的图像的特征(像素)是相关的。如果图像的 R 通道中有 256 个像素,则255 个像素i和255 个像素j都是白色的,这意味着 R 颜色的强度(?)相同。
那为什么不批量使用整个数据的平均值呢?如果像素通道i恰好有 (0, 127) 和通道j有 (128, 255) 之间的值,则 (0, 127) 的含义在 [0, 255] 之间i以及 和之间的关系含义j,即像素i强度低于j) 丢失。
