使用神经网络对基本形状进行精确定位和表征

人工智能 深度学习 深度神经网络 计算机视觉 物体识别
2021-11-06 07:45:51

我知道有一些(卷积)神经网络对合理难度的目标定位和检测任务很有用。到目前为止,在我看到的所有示例中,定位都被表述为寻找边界框的角。通常,不期望拟合非常精确:

交通标志边界框

相反,我对一项任务很感兴趣,我想对一些简单的形状或对象进行非常精确的定位和表征。作为我能想到的最简单情况之一的示例,我的输入将是如下图像:

28 21 15

鉴于这个 60x60 的图像,我希望我的神经网络通过回归告诉我圆的直径是 18px,它的中心位于左上角的 (28, 21) 处。(我将使用类似的 60x60 图像和黑色背景上各种大小的白色圆圈来训练它。)

后来我对处理现实世界中的类似任务感兴趣,例如具有不同视角、光照条件、遮挡等的球体/立方体/圆柱体。但是,我有兴趣首先解决这个最简单的情况。(一个原因是我可以很容易地生成这些数据。)

我有以下具体问题:

  1. 以前有人用过神经网络来完成这类任务吗?(例如精确确定物体的大小和质心)
  2. 我的理解是,这些事情至少在理论上可以使用卷积网络,甚至是足够复杂的香草全连接网络。这个对吗?
  3. 哪些架构适合这些任务?

注意:我知道将边界框拟合到圆圈并计算其中心和大小将解决这种特殊情况,但它不会泛化处理遮挡、改变灯光等。我想转向一种可以的方法,例如,计算真实黑白照片中球体的质心和直径。

1个回答

我认为您正在描述“对象定位和检测”,它将对象识别与发现其在视野中的空间位置相结合。在过去的 5 年中,使用 CNN 和变体在这方面做了很多工作。在自动驾驶汽车系统中,行人/障碍物检测、识别和避让非常需要。

这是一个开始的地方: https ://github.com/kjw0612/awesome-deep-vision

特别是,看看 Ren et al, 2016 的“Faster R-CNN”。