假设我有 RGB 输入数据(3 个通道)和一个卷积层,它只有一个深度为 3 的滤波器。如果我们对每个通道的卷积结果求和,输出数据的深度将为 1。但为什么要总结结果呢?为什么不建立平均值或一直添加 17?
一些想法:
看起来我们可能会因为求和而丢失信息。例如,如果红色通道上有一个正边缘,而蓝色通道上有一个负边缘,它们将相互抵消。好的,每个通道的权重可能会有所不同,这可能会有所帮助,但我仍然看不到求和相对于其他操作的优势。
R (1. channel) conv Filter 1 [x:x:1] \
\
G (2. channel) conv Filter 1 [x:x:2] => Sum => output [x:x:1] WHY?
/
B (3. channel) conv Filter 1 [x:x:3] /
编辑:
这是一个更好的图形(向下滚动到 gif)。
http://cs231n.github.io/convolutional-networks/#conv