目标检测网络中的坐标预测参数化

机器算法验证 机器学习 分类 神经网络 物体检测
2022-03-30 01:37:02

最先进的对象检测网络,例如 RetinaNet、Faster R-CNN 和 YOLO,使用坐标编码,其中边界框回归是相对于锚框给出的:

中心:
tx=(xxa)/waty=(yya)/ha

高度和宽度偏移:
tw=log(w/wa)th=log(h/ha)

为什么对数格式的宽度和高度预测这有优化的原因吗?

1个回答

参数化似乎源自 R-CNN 论文,Girschick 等人,2013:Rich feature hierarchies for accuracy object detection and semantic segmentation请注意,SSD 也使用此参数化(参见论文中的公式(2))。

使用此参数化,边界框的大小计算为w=waexp(t), 在哪里wa是锚盒的大小和t是网络输出。这个参数化有一些(很好的)属性:

  • 预测的边界框总是有正尺寸
  • 如果t=0, 预测框的大小与锚框的大小相同
  • 价值观t<0“慢慢地”缩小边界框(预测的大幅减少是尺寸的小幅减少)
  • 价值观t>0“快速”扩展边界框(预测的小幅增加是尺寸的大增加)

第一个属性非常有用。很难说其余部分是否/多少使优化更容易,但它似乎工作得很好,因为这是对象检测中使用的事实上的标准参数化。