机器算法验证 - 目标检测网络中的坐标预测参数化 - 吾爱随笔录

机器算法验证机器学习分类神经网络物体检测

2022-03-30 01:37:02

最先进的对象检测网络，例如 RetinaNet、Faster R-CNN 和 YOLO，使用坐标编码，其中边界框回归是相对于锚框给出的：

中心：
$t_x = (x-x_a)/w_a$ 和 $t_y = (y-y_a)/h_a$

高度和宽度偏移：
$t_w = \log(w/w_a)$ 和 $t_h = \log(h/h_a)$

为什么对数格式的宽度和高度预测？这有优化的原因吗？

1个回答

参数化似乎源自 R-CNN 论文，Girschick 等人，2013：Rich feature hierarchies for accuracy object detection and semantic segmentation。请注意，SSD 也使用此参数化（参见论文中的公式（2））。

使用此参数化，边界框的大小计算为 $w=w_a\exp(t)$ ，在哪里 $w_a$ 是锚盒的大小和 $t$ 是网络输出。这个参数化有一些（很好的）属性：

第一个属性非常有用。很难说其余部分是否/多少使优化更容易，但它似乎工作得很好，因为这是对象检测中使用的事实上的标准参数化。

其它你可能感兴趣的问题