深度学习和专用硬件的最新进展使得以比以往更高的准确度检测图像成为可能。神经网络是计算机视觉应用的黄金标准,在行业中被广泛使用,例如互联网搜索引擎和自动驾驶汽车。在现实生活中的问题中,图像包含具有不同对象的区域。仅仅识别图片是不够的,还需要识别图片的元素。
不久前,文献中描述了众所周知的滑动窗口算法的替代方案,称为区域建议网络。它基本上是一个由区域向量扩展的卷积神经网络。
我试图解决的问题:
在给定的视频帧中,我想选择一些感兴趣的区域(字面意思),并对这些区域进行分类。
目前是如何实施的
- 捕获视频帧
- 将视频帧拆分为多个图像,每个图像代表一个感兴趣区域
- 对每张图像(对应帧的一部分)进行图像分类(推理)
- 汇总#3的结果
当前方法的问题
每帧多次推理。
问题
我正在寻找一种解决方案,在其中指定帧中感兴趣的位置,并且推理任务(无论是对象检测(或)图像分类)仅在这些区域上执行。您能否指出我需要的参考资料学习(或)使用来做到这一点。