我最近读了很多关于计算机视觉的文章,虽然有大量关于对象分类的信息,而关于对象检测的信息却少得多,但我还没有发现任何关于基于类的对象检测的信息,即当我知道自己在做什么时我正在寻找。例如,在图片上寻找猫。现在你可以说一张图片是否是猫(对象分类),或者图片是否有猫等等。我将如何使用这些知识来提高性能(准确性和速度)?
我不会做的事情(但我很想做):
- 使用二元分类器执行蛮力解决方案
- 实现基于形状的选择性搜索,然后使用二元分类器
我真正想做的,但在识字中没有找到:
- 实施可训练的选择性搜索以查找基于类别的感兴趣区域。
- 使用二元分类器检查 ROI 是否实际上是要找到的对象。