我正在阅读一篇名为 YOLO 的对象检测论文(你只看一次),我对架构有一些疑问。
在 CNN 网络中,作者描述了 1x1 卷积减少了前几层的特征空间。当我看到下图时,我很困惑他堆叠了 3x3x256 卷积层,然后是 1x1x256。
之前和之后的特征数量(256到256)不一样吗?这应该如何减少特征空间?
我正在阅读一篇名为 YOLO 的对象检测论文(你只看一次),我对架构有一些疑问。
在 CNN 网络中,作者描述了 1x1 卷积减少了前几层的特征空间。当我看到下图时,我很困惑他堆叠了 3x3x256 卷积层,然后是 1x1x256。
之前和之后的特征数量(256到256)不一样吗?这应该如何减少特征空间?
正如@E_net4 的评论中所引用的,1x1 卷积相当于完全连接的层,允许根据使用的过滤器数量进行特征扩展或收缩。
查看图片中的架构图,看起来 1x1 卷积实际上是通过将过滤器数量减少一半来减少特征空间。即查看图像中的第三个块,输入为 56x56x256,但第一个卷积是 1x1x128,因此假设步幅为 1,则输出将为 56x56x128。