当在具有多个通道的图像上使用卷积网络时,我们是在对每个通道的特征图求和后最大化池化,还是分别对每个特征图进行最大池化然后求和?
这背后的直觉是什么,或者两者之间有什么区别?
当在具有多个通道的图像上使用卷积网络时,我们是在对每个通道的特征图求和后最大化池化,还是分别对每个特征图进行最大池化然后求和?
这背后的直觉是什么,或者两者之间有什么区别?
池化操作应用于卷积层的输出。更准确地说,它分别应用于每个输入通道(或切片)。因此,如果池化层接收到的输入量为,那么它将产生一个输出量,所以输出体积的深度等于输入体积的深度。池化操作不涉及总和。例如,在最大池化的情况下,您将选择某个 2D 窗口值的最大数量。您对每个输入通道执行此操作。
在文章(这是一些课程笔记的一部分)卷积神经网络:架构、卷积/池化层中,Andrej Karpathy 说
池化层在空间上对体积进行下采样,在输入体积的每个深度切片中独立。
下图(来自上述文章的其中一张图的屏幕截图)应该提供池化操作背后的一些直觉。
CNN 中的池化操作独立应用于每一层,并且生成的特征图是不相交的。这就是在大多数描绘特定 CNN 架构的示意图中,我们从输入图像中获得三个输出图的原因(对应于分别在 RGB 通道上执行的卷积和池化操作)。
图像中的每个通道捕获一组信息,由于颜色接受性,其他通道可能无法显示这些信息。因此,独立执行的池化是直观的,因为红色通道中的一组像素可能无法提供与蓝色或绿色通道中的同一组像素相似的特征。因此像素的比较被限制在一个通道内。
下图提供了转换为灰度的 RGB 通道的可视化。注意三个不同通道中红色的亮度(与彩色图像相比)以获得更好的直觉: [图像源]
最后,为了将卷积层的多维输出馈送到全连接层,特征图沿深度维度堆叠并展平以形成向量。这确保了密集层学习基于这些高级特征的非线性组合对图像进行分类(在最终密集层中使用 Softmax 激活)。