He等人的论文。《Deep Residual Learning for Image Recognition》在图 3 中说明了他们的残差网络如下:
我不是神经网络专家,所以有人可以向我解释一下“3x3 conv,256,/2”上方突出显示的符号是什么意思吗?第一部分很清楚(具有 3x3 像素窗口的卷积神经网络),但是“256”和“/2”是什么?
He等人的论文。《Deep Residual Learning for Image Recognition》在图 3 中说明了他们的残差网络如下:
我不是神经网络专家,所以有人可以向我解释一下“3x3 conv,256,/2”上方突出显示的符号是什么意思吗?第一部分很清楚(具有 3x3 像素窗口的卷积神经网络),但是“256”和“/2”是什么?
3x3 转化率,256,/2
代表:
后者在作者声明的第 3 页上进行了解释
(ii) 如果特征图大小减半,过滤器的数量加倍,以保持每层的时间复杂度。我们直接通过步长为 2 的卷积层执行下采样。
这意味着 ResNet 确实,除了网络的开头和结尾,不使用池化层来减少空间维度,而是使用 conv。层。
此外,表 1 显示了正在发生的事情:
您在屏幕截图中突出显示的部分是从 conv3_x 到 34 层网络的 conv4_x 层的过渡。正如您在表格中看到的,输出大小从 28x28 减少到 14x14(就是/2这样),而过滤器从 128 增加到 256。