像旋转这样的数据增强如何影响检测质量?

人工智能 卷积神经网络 物体识别
2021-11-03 13:42:40

我正在使用对象检测神经网络,并使用数据增强来增加一点我的小数据集。更具体地说,我做旋转、平移、镜像和重新缩放。

我注意到旋转图像(因此它是边界框)会改变它的形状。这意味着对于拉长的盒子来说是一个错误的盒子,例如在增强图像(下右图)​​上,盒子没有像在原始图像上那样紧紧地包裹在左边的玩家周围。

问题在于,这种数据增强似乎(理论上)会阻碍网络在边界框位置上获得精度,因为它会松开框架。

是否有一些研究涉及数据增强对检测网络精度的影响?有没有防止这种事情发生的系统?

先感谢您!

(显然,使用小旋转角度似乎是可取的)

在此处输入图像描述

1个回答

问题在于,这种数据增强似乎(理论上)会阻碍网络在边界框位置上获得精度,因为它会松开框架。

是的,从您的示例中可以清楚地看出边界框变得更宽。通常,在您的训练数据中包含大量此类数据意味着您的网络也将倾向于学习稍大的边界框。当然,如果你的大部分训练数据仍然有紧凑的盒子,它应该倾向于学习那些......但可能比训练数据不包括这些旋转的情况稍微宽一些。

是否有一些研究涉及数据增强对检测网络精度的影响?有没有防止这种事情发生的系统?

(显然,使用小旋转角度似乎是可取的)

我个人并没有直接在计算机视觉领域工作,所以我对文献不够熟悉,无法向您指出有关此特定问题的任何参考资料。根据我自己的直觉,我可以推荐:

  1. 正如您自己已经建议的那样,使用相对较小的旋转角度。边界框将变得比原始数据集宽一点,但不会太大。
  2. 使用的旋转角度是 的倍数90. 请注意,如果您将边界框旋转多个90,旋转的边界框变为轴对齐,您的问题再次消失,它们将变得与未旋转图像中的边界框一样紧。当然,你也可以把这个建议和之前的建议结合起来,比如在中使用旋转角度,[85,95].
  3. 主要在仅具有近似“正方形”边界框的图像中应用更大的旋转。通过查看您的图像,我的印象是,当您的边界框极宽或极薄(一个维度比另一个大得多)时,旋转后边界框变宽的问题会更加严重。当原来的bounding box是正方形的时候,旋转后还是会有一些变宽,但是不会那么大,所以这种情况下这个问题可能更容易接受。