滑动窗口神经网络的替代方案(曾经:对象检测(或)帧中特定位置的图像分类)

人工智能 深度学习 分类 计算机视觉 物体识别
2021-11-17 01:56:14

深度学习和专用硬件的最新进展使得以比以往更高的准确度检测图像成为可能。神经网络是计算机视觉应用的黄金标准,在行业中被广泛使用,例如互联网搜索引擎和自动驾驶汽车。在现实生活中的问题中,图像包含具有不同对象的区域。仅仅识别图片是不够的,还需要识别图片的元素。

不久前,文献中描述了众所周知的滑动窗口算法的替代方案,称为区域建议网络。它基本上是一个由区域向量扩展的卷积神经网络。

我试图解决的问题:

在给定的视频帧中,我想选择一些感兴趣的区域(字面意思),并对这些区域进行分类。

目前是如何实施的

  1. 捕获视频帧
  2. 将视频帧拆分为多个图像,每个图像代表一个感兴趣区域
  3. 对每张图像(对应帧的一部分)进行图像分类(推理)
  4. 汇总#3的结果

当前方法的问题

每帧多次推理。

问题

我正在寻找一种解决方案,在其中指定帧中感兴趣的位置,并且推理任务(无论是对象检测(或)图像分类)仅在这些区域上执行。您能否指出我需要的参考资料学习(或)使用来做到这一点。

2个回答

计算机视觉中有许多不同的问题。上面的图片很好地描述了其中四个

  • 分类:给定一张图片,说出上面的内容(一件事情)
  • 分类+本地化:给定一张图片,说出上面的内容并在其周围绘制一个轴对齐的边界框(AABB)
  • 对象检测:给定图像,在每个对象周围绘制 AABB 并对这些对象进行分类
  • 语义分割:参见语义分割调查
  • 实例分割:类似于语义分割,但如果有多个猫,那么它们应该被识别为不同的对象。

您的问题似乎与对象检测有关。这里的相关论文是:

如果您实际上已经有了这些区域,那么您可以简单地对它们进行分类。当您填充/缩放/裁剪它们时,您可以批量预测它们。

作为识别给定图像/帧中的多个对象的对象分割问题可能更容易处理。有很多使用“对象分割”作为关键字进行搜索的示例。