我试图理解论文Visualizing and Understanding Convolutional Networks的结果,特别是下图:
这些 3x3 块及其 9 个单元代表什么?
据我了解,第 i 层的每个 3x3 块对应于该层中随机选择的特征图(例如,对于第 1 层,他们随机选择了 9 个特征图,对于第 2 层,他们随机选择了 16 个特征图等)。在左侧(灰色图像),第 j 个 3x3 块显示了通过将特定特征图的前 9 个激活(单个值)映射到“像素空间”(使用反卷积网络)而获得的 9 个可视化。在右侧,第 j 个块显示了 9 个输入图像块,对应于前 9 个激活(例如,在第一层和第 i 个特征图中,第 j 个图像块是输入的局部区域该特征图的第 j 个神经元看到的图像)。我的理解正确吗?
但是,我并不完全清楚前 9 个激活是如何选择的。似乎对于每一层和每个特征图,都会为不同的输入图像选择激活(这就是为什么我们在 layer-3、row-1、col-1 中看到不同的人,在 layer-3 中看到不同的汽车,第 2 行,第 2 列)。因此,在每个块中,前 9 个激活是从整个数据集的 9 个不同图像(但属于同一类的图像)中获得的(但原则上,可能有多个激活来自同一图像)。