我总是发现边界框回归有点奇怪。没有像视觉转换器那样的位置编码,那么网络如何在生成边界框坐标时“知道”绝对位置?当我们处理两阶段检测器时,它变得更加奇怪,因为在第二阶段边界框回归中,只有一个 ROI 可用,而不是整个图像。
边界框检测网络如何“知道”绝对位置?
人工智能
计算机视觉
物体检测
边界框
2021-11-06 05:46:14
1个回答
当然,这取决于所使用的检测模型。
但是在您的情况下,我认为您与用于边界框检测的 Faster-RCNN 类型架构有关。在这种情况下,仅回归到锚点的相对位置,这是正确的。当然,分离的回归“值”在图像中没有绝对值的信息,因为共享相同的卷积并在整个图像/层上滑动。然而,在你的回归层完成后(即在整个前一层上滑动卷积),它会输出一个具有相对回归值的新特征图。回归值本身不包含关于绝对位置的信息,但是回归量的输出特征图中的相对特征值的 xy 位置与相对值本身相结合,可以为您提供有关绝对位置的信息。
这也使它成为“平移不变”,这是 Faster-RCNN 架构的一个重要且需要的特性。
其它你可能感兴趣的问题