零填充的全卷积网络:
我有一个完全卷积网络,在卷积层中没有任何填充。这意味着,在每次卷积操作之后,输出特征图小于输入特征图。没有填充卷积层对我的应用程序至关重要,因为我希望具有严格的平移不变性。
以下是关于我的 CNN 的一些要点:
- 它仅由最大池和卷积层组成。
- 我的 CNN 的步幅是 8,它是通过将最大池和卷积层的步幅相乘来计算的。
- 如果我传递一个 255x255 的图像,我会得到一个 17x17x5 的输出图(4 个边界框值 + 置信度分数)。
与 YOLO 的比较:
YOLO 将输出网格简单地拟合在整个图像上。我猜他们之所以能够这样做,是因为他们在带有填充的卷积层中保持了特征大小。由于我的卷积层中没有任何填充,我知道输出对应于图像的某些部分,其中边界像素被冲走。
关键问题:
我希望将输出网格(17x17)适合原始图像空间(255x255),但我无法弄清楚卷积算法。我在这里有两个问题:
- 原始图像中网格从左上角的偏移量应该是多少?
- 每个网格单元的尺寸(宽度和高度)是多少?
我猜上面两个问题的答案应该是网络步幅的函数, 输入图像大小和输出大小(随时证明我错了)。需要明确的是,在我的全卷积网络中,= 8,= 255 和= 17。