CNN 如何进行边界框回归,特征和权重代表什么?

数据挖掘 美国有线电视新闻网
2022-02-17 01:13:53

我知道,在房价逻辑回归问题中,权重和特征分别代表因素或特征变量系数的“重要性”,然后最小化LSR损失可以得到系数的值,问题是:

  1. CNN 是如何做边界框回归的?

我实际上做了很多谷歌搜索以找到一个直观的解释,但没有运气。

  1. BBR 中的特征和权重代表什么?

我认为不可能T,L,W, 和H因为这些绝对值会因为距离/比例和视角的不同而有很大的不同,但是WH是一个合理的特征(我理解),因为它是一个相对值。

1个回答

这取决于具体的模型,但我们可以考虑最流行的目标检测单阶段模型:SSD

它有一组默认边界框(先前的框),它预测每个边界框:

  • 类集上的概率分布(这是一个分类问题,通过交叉熵损失解决)
  • 先前框的默认位置(中心的 x,y 坐标)及其高度/宽度的偏移量。这是一个使用平滑 L1 损失(定位损失)优化的回归问题:

定位损失

确切的定义有点复杂,因为它包括方差和指数,但总体思路是这样的。此外,根据边界框编码类型,我们可能预测的偏移量不是 (cx, cy, w, h),而是 (xmin, ymin, xmax, ymax)。

当然,先前框的预测形状偏移不是绝对值。这些值与先前框的默认大小有关。解码的确切公式是:

在此处输入图像描述