超出网格单元的预测边界框(Andrew NG CNN 课程)?

数据挖掘 机器学习 神经网络 深度学习 美国有线电视新闻网 约洛
2022-02-04 12:41:45

我在关注Pr。关于课程的Andrew Ng课程,我对他在算法Convolutional neural network中提到的一点有疑问。Yolo

在其中一张幻灯片中,他提到了两个关键点:

1)对于我们的网格图像中的每个网格,将有 2 个预测边界3×3

2)并且这些边界框中的每一个都将大于网格的大小。

我不明白为什么会有预测的边界框?是因为我们考虑了两个anchor box吗?2

另外,边界框怎么能比网格的大小还大呢?因为我们知道每个对象只能根据中点属于一个网格

YOLO 算法

3个回答

我想其他答案足以解决这个问题。我只想补充一点,算法使用不同的锚框,因为不同对象的中心可能位于同一个像素上,尽管真正的算法使用两个以上的锚框。例如,您可以清楚地看到他在幻灯片中使用的图像。两个对象的中心在同一个像素上。您还应该考虑每个类别的锚框不同,并且每个类别都是唯一的。

1) 完全正确。在 Andrew 当前的示例中,您有两个锚框,因此该算法将为每个网格单元输出两个预测的边界框。

2)您的以下陈述不正确

“因为我们知道每个对象只能基于中点属于一个网格”

我不记得在课程中说过对象的中心属于单个单元格。

澄清:对象跨越的区域大于分配给它的网格单元的事实与网格单元本身的大小无关。该对象可以并且大于其分配的网格单元。但是,输出将每个对象分配给一个网格单元,因为该网格单元包含它的中点。

无论如何,神经元的感受野比它们处理的单个细胞大得多(即它们覆盖了整个图像)。锚点在一定的宽度和高度上初始化,但在推理过程中会根据使用最终特征图识别的对象大小调整大小。因此,人们可能会认为 yolo 可以预测对象的出现及其大小。

更多关于 CNN 的感受野

检查:“回归器而不是分类器”部分

品味: 对于每个正位置,网络预测边界框精确位置和尺寸的回归

这也被问到here

需要记住的几点: 1. 边界框是一个标签。2. 网格对于预测中点很有用。

尽管他提到网格对于预测很有用,但主要目标在于预测对象本身。网格建议对象是否存在(换句话说,定位 bx,by)。边界框的基本事实是整个图像。因此边界框(bh,bw)的预测是针对整个图像的,这表明边界框可以位于网格内、网格上或网格外。