我查看了许多方法和论文,例如 YOLO、SSD 等,在检测物体周围的矩形框方面取得了很好的效果,但是,我找不到任何展示学习旋转边界框的方法的论文。
学习(旋转)对象的旋转边界框是否困难?
这是一个说明问题的图表。
例如,对于这个对象(参见this),它的边界框应该是相同的形状(旋转的矩形显示在右图 2 中),但 YOLO 的预测结果将是 Ist right。
有没有解决这个问题的研究论文?
我查看了许多方法和论文,例如 YOLO、SSD 等,在检测物体周围的矩形框方面取得了很好的效果,但是,我找不到任何展示学习旋转边界框的方法的论文。
学习(旋转)对象的旋转边界框是否困难?
这是一个说明问题的图表。
例如,对于这个对象(参见this),它的边界框应该是相同的形状(旋转的矩形显示在右图 2 中),但 YOLO 的预测结果将是 Ist right。
有没有解决这个问题的研究论文?
笛卡尔偏差和管道效率
您正在体验一种以笛卡尔为中心的成像技术文化产物,它一直运行到坐标系的黎明。这是应用笛卡尔 2D 坐标对出现在镜头焦平面上的图像进行光栅化处理的结果,这种图像从电视诞生之初以及基于光栅的捕获和显示的最早标准开始。
尽管在 1990 年代后期为为边界矩形添加倾斜度做了一些工作,但从时间和计算资源节约的角度来看,包含四个无用的像素三角形并保持边界框与像素网格。
在从卫星上检测船只时,在边界框上添加一个倾斜角仅是因为两个条件抵消了该狭窄区域的低效率。这艘船看起来是一个带有圆角的长方形,来自一颗位于地球同步轨道上的卫星。在一般情况下,添加倾斜角度会显着减慢识别速度。
生物学不偏不倚
一个有趣的旁注是,动物和人类视觉系统的神经网络不具有以笛卡尔为中心的特性,但这无助于解决这个问题,因为几乎不存在非正交硬件和软件。
早期的非笛卡尔研究和今天的光栅化
格柏科技在 1980 年代(美国康涅狄格州南温莎)的研究和开发研究了矢量捕获、存储和显示,但由于上述原因,对于中端技术公司而言,研发在财务上不可持续。
剩下的,因为从动画的角度来看它在经济上是可行的和必要的,是系统末端的光栅化,将矢量模型转换为像素帧。我们在渲染 SVG、VRML 以及 CUDA 内核和其他硬件渲染加速策略和架构的初衷中看到了这一点。
在对象和动作识别方面,直接来自成像的矢量模型的支持还不够发达。这并不是计算机视觉的主要绊脚石,因为在一个倾斜角度浪费的像素可能在另一个倾斜角度具有中心重要性,因此如果关键场景元素的中心在平移和倾斜,这在现实生活中经常发生(尽管在卫生预处理的数据集中不是那么多)。
视差中的对象减去相机倾斜和倾斜的约定
一旦边缘检测、内部对外部和 3D 实体识别开始发挥作用,CNN 管道的设计以及内核无需实际需要就可以进行径向变换的方式函数消除了像素张量的笛卡尔性质的计算负担。最终结果是,与图像帧正交的边界框并不像最初出现的那样有问题。保存四个像素三角形和预处理方向的努力通常是浪费毛利的努力。
概括
最重要的是,从名册输入产生矢量识别的努力在资源和等待时间负担方面明显逊色,除了在海军侦察卫星图像的狭窄领域取得的微不足道的收益。三角函数很昂贵,但卷积核,特别是现在它们正在从软件转移到 VLSI 中的硬件加速计算路径,可以以较低的成本计算。
过去和现在的工作
下面是一些处理对象倾斜以及与光栅表示的笛卡尔坐标系相关的视差影响的一些工作。大部分工作与识别 3D 坐标系中的 3D 对象有关,以根据牛顿力学投射轨迹并合理地驾驶或驾驶车辆。
使用 k-DOP 的边界体积层次进行高效碰撞检测,James T. Klosowski、Martin Held、Joseph SB Mitchell、Henry Sowizral 和 Karel Zikan,1998 年
深度图像中用于 3D 对象检测的滑动形状,宋舒然和肖建雄,2014
自然场景中的 Amodal 完成和尺寸恒定性,Abhishek Kar、Shubham Tulsiani、Joao Carreira 和 Jitendra Malik,2015
使用深度学习的基于 HMD 视觉的远程操作 UGV 和无人机,Abhishek Sawarkar1、Vishal Chaudhari、Rahul Chavan、Varun Zope、Akshay Budale 和 Faruk Kazi,2016
船舶旋转边界框空间,用于从具有复杂背景的高分辨率光学卫星图像中提取船舶,Z Liu, H Wang, L Weng, Y Yang, 2016
Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes from 2D Ones in RGB-Depth Images,邓卓,2017
使用卷积神经网络的 3D 姿势回归,Siddharth Mahendran,2017
基于 Faster R-CNN 结合帧差分的空中目标跟踪算法,杨玉荣,龚华军,王新华,孙鹏,2017
单目视频车辆速度估计的半自动 2D 解决方案,Amit Kumar,Pirazh Khorramshahi,Wei-An Lin,Prithviraj Dhar,Jun-Cheng Chen,Rama Chellappa,2018
这是最近的一篇论文,可以满足您的需求。看起来他们只是通过添加几个旋转的先前框并回归它们之间的角度来实现这一点。这类似于标准物体检测器在创建一堆先前的盒子形状和回归实际尺寸方面所做的事情。
与边界框相比,预测旋转的矩形应该不会更难。
可以使用 4 个浮点数对边界框进行参数化:,,宽度,高度。
一个旋转的矩形可以用 5 个浮点数参数化:,,宽度,高度,角度。
但是,为了避免用一个值(0° 与 360° 相同)预测角度时出现回绕问题,最好改为预测正弦和余弦。
预测文本检测的旋转矩形实际上很有用(每个文本字段都是一个旋转的矩形)。事实上,在野外,文本可以是任何方向,预测精确旋转的矩形以使 OCR 正常工作很重要。对于 45° 附近的长文本框尤其如此(围绕它的轴对齐边界框将无用,因为太大)。
以下是我找到的有关此主题的 2 个链接: