YOLO 能否检测到“不同”位置的物体?

人工智能 卷积神经网络 参考请求 数据集 物体检测 约洛
2021-11-16 13:09:49

对于对象检测,我有以下关于 You Only Look Once (YOLO) 算法的问题。

我必须开发一个神经网络来识别 Web 应用程序中的 Web 组件——例如,登录表单、文本框等。在这种情况下,我必须考虑页面上对象的位置可能会有所不同,例如,当您向上或向下滚动时。

问题是,YOLO 是否能够检测到“不同”位置的物体?这些变化会影响识别精度吗?换句话说,如何实现平移不变性?另外,部分遮挡怎么办?

我的猜测是,这取决于数据集中示例的相关性:如果存在足够多的翻译/部分遮挡示例,它应该可以正常工作。

如果可能的话,我会很感激关于这个问题的论文或参考资料。

(PS:如果有人知道这个任务的标记数据集,如果你让我知道,我真的很感激。)

2个回答

据我了解YOLO,它的算法将整张图片分割成许多小帧,对每一帧进行一次分类和边界检测,这样物体的位置就无关紧要了。

正如你所说,如果数据集包含足够多的此类案例示例,CNN 将能够检测到不同位置的对象,尽管网络能够泛化并且应该能够检测位置和方向略有变化的对象。

术语“平移不变性”并不意味着平移图像中的对象会对该对象产生相同的输出,而是表示平移整个图像会产生相同的结果。所以物体的相对位置很重要,现代 CNN 对整个图像做出决定(当然,有很强的局部线索)。

为了最大限度地提高 CNN 检测多方向的能力,您可以使用旋转图像的数据增强进行训练。

相同的推理可以应用于部分遮挡:如果训练集中有足够多的遮挡样本,网络应该能够检测到这些样本。当遮挡较小时,网络的泛化能力也应该有所帮助,并且仍然能够检测到对象。

一些论文尝试了不同的实验来证明遮挡和平移的鲁棒性,例如通过在人为地用灰色矩形遮挡图像的一部分时查看网络激活,尽管我没有想到论文名称。