什么是可用于我相对简单的图像集的基本对象检测/定位 ML 算法?

数据挖掘 机器学习 机器学习模型 物体检测
2022-03-08 22:24:29

我有一个相对简单的对象定位任务。我有一个图像集,要么是统一的,要么包含一个由图像中某个位置的黑色圆形组成的“对象”。标签包括它是否包含对象,以及对象的位置(中心坐标+长度/宽度)。YOLO 感觉有点矫枉过正,我很难弄清楚如何让它工作,但我很难找到一个更简单的模型来工作。

1个回答

因此,以下技术用于对象检测(其他可以是 YOLO、R-CNN 和其他深度学习技术):

哈尔级联分类器

这是第一个成功使用的面部检测算法,并且一直流行到今天。由 Viola 和 Jones 在他们的论文Rapid Object Detection using a Boosted Cascade of Simple Features (2001, CVPR) 中提出,该算法使用来自积分图像的 Haar-like 特征和级联提升分类器来检测图像中的对象。Lienhart 于 2002 年在他的论文Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection中提出了对该算法的改进

它可以使用 Python、C 和 Java 中的 OpenCV对象检测模块轻松训练,也可以在 Matlab 计算机视觉工具箱中作为vision.CascadeObjectDetector和可能的许多其他平台使用。

最大边距对象检测

该算法在dlib的创建者 Davis E. King的论文Max-Margin Object Detection中提出,该算法已经实现了使用 HoG 特征和 CNN 特征进行人脸检测的实现。

论文摘要如下:

大多数对象检测方法通过将二元分类器应用于图像的子窗口,然后进行非极大值抑制步骤来操作,其中重叠子窗口上的检测被删除。由于即使在中等大小的图像数据集中,可能的子窗口数量也非常大,因此分类器通常仅从窗口的子集学习。这避免了处理整个子窗口集的计算困难,但是,正如我们将在本文中展示的那样,它导致检测器性能次优。

特别是,本文的主要贡献是引入了一种新方法,即最大边距对象检测 (MMOD),用于学习检测图像中的对象。此方法不执行任何子采样,而是对所有子窗口进行优化。MMOD 可用于改进任何在学习参数中呈线性的对象检测方法,例如 HOG 或视觉词袋模型。使用这种方法,我们在三个公开可用的数据集上展示了显着的性能提升。引人注目的是,当通过 MMOD 学习 HOG 过滤器时,我们表明单个刚性 HOG 过滤器可以在人脸检测数据集和基准上优于最先进的可变形零件模型。

我认为这是深度学习之外最相关的两篇文章,阅读他引用的 3 篇文章中的相关工作可能会让您对如何继续进行一些了解。