据我所见,大多数对象检测神经网络(Fast(er) R-CNN等YOLO)都是根据数据进行训练的,包括 bounding boxes指示对象在图片中的位置。
有没有简单地接受full picture + label注释的算法,然后在确定图像是否包含某些对象的基础上也间接地
- 学会理解对象的适当边界框?
据我所见,大多数对象检测神经网络(Fast(er) R-CNN等YOLO)都是根据数据进行训练的,包括 bounding boxes指示对象在图片中的位置。
有没有简单地接受full picture + label注释的算法,然后在确定图像是否包含某些对象的基础上也间接地
是的,有一些模型可以做到这一点。这个链接指向我相信的第一批论文之一。主要思想称为弱监督目标检测。
这篇论文基本上做了三个修改。
他们将典型的隐藏全连接层视为卷积层。这是有效的,因为卷积层可以被认为是对图像的相同全连接网络进行卷积。
他们稍后在这个卷积层的末尾添加了一个全局最大池。这个操作符将“突出显示”这个最终卷积层的区域,该区域已经学习了它试图分类的对象的模式。在这个全局最大值的权重上使用一个阈值将确保一个区域是显着的。然后,他们使用一种算法从该区域创建一个边界框。
他们提出了一种新的损失函数,该函数适用于对象是否存在。我认为他们假设每个类都有一个伯努利,这适合于多重逻辑回归而不是 softmax。
看一看,因为它非常可爱,并且已被许多其他令人兴奋的新论文引用。
另一种方法是“仅使用人工验证训练对象类检测器”
我们提出了一种用于训练目标检测器的新方案,它只需要注释器来验证由学习算法自动生成的边界框。我们的方案在重新训练检测器、重新定位训练图像中的对象和人工验证之间进行迭代。我们使用验证信号来改进重新训练并减少重新定位的搜索空间,这使得这些步骤不同于通常在弱监督设置中完成的步骤