最先进的对象检测网络,例如 RetinaNet、Faster R-CNN 和 YOLO,使用坐标编码,其中边界框回归是相对于锚框给出的:
中心:
和
高度和宽度偏移:
和
为什么对数格式的宽度和高度预测?这有优化的原因吗?
最先进的对象检测网络,例如 RetinaNet、Faster R-CNN 和 YOLO,使用坐标编码,其中边界框回归是相对于锚框给出的:
中心:
和
高度和宽度偏移:
和
为什么对数格式的宽度和高度预测?这有优化的原因吗?
参数化似乎源自 R-CNN 论文,Girschick 等人,2013:Rich feature hierarchies for accuracy object detection and semantic segmentation。请注意,SSD 也使用此参数化(参见论文中的公式(2))。
使用此参数化,边界框的大小计算为, 在哪里是锚盒的大小和是网络输出。这个参数化有一些(很好的)属性:
第一个属性非常有用。很难说其余部分是否/多少使优化更容易,但它似乎工作得很好,因为这是对象检测中使用的事实上的标准参数化。