YOLO 模型将图像分割成更小的框,每个框负责预测 5 个边界框。
我的问题是模型如何为每个网格单元制作这些边界框?每个框是否具有相对于网格单元中心的预定义偏移量。
我不是在谈论包围对象的最终边界框我说的是每个网格单元存在的 5 个预测边界框。
例如,如果较小的网格单元位于 50x50(它的中心),那么边界框应该在 (50+5)x(50+5) 或类似的位置
如果不是,那么边界框是如何形成的?
YOLO 模型将图像分割成更小的框,每个框负责预测 5 个边界框。
我的问题是模型如何为每个网格单元制作这些边界框?每个框是否具有相对于网格单元中心的预定义偏移量。
我不是在谈论包围对象的最终边界框我说的是每个网格单元存在的 5 个预测边界框。
例如,如果较小的网格单元位于 50x50(它的中心),那么边界框应该在 (50+5)x(50+5) 或类似的位置
如果不是,那么边界框是如何形成的?
Andrew Ng 的解释实际上涵盖了使用锚框的 YOLOv2。您链接的论文 YOLOv1 不使用锚框,因此不完全相同。
他们理解边界框是如何形成的关键是首先了解输出是如何编码的。我会推荐这个链接:https ://hackernoon.com/understanding-yolo-f5a74bbc7967
简而言之,我将使用论文中的示例,对于 S=7、B=2 和 C=20,我们的输出是一个 7x7x30 的张量,它编码位置(边界框坐标)和对象(类的概率) ) 是。为了实现这一点,我们在 CNN 的末端构建了一个全连接层,这将为我们提供 7x7x30(相当有力)。因此,在我们的第一次前向传递中,每个单元格将有 2 个随机边界框。计算损失。然后将根据减少损失(优化)调整 CNN 的权重。然后下面的通道将产生更接近地面实况的边界框。
我认为Andrew Ng 的解释可能会帮助您更好地理解算法。浏览播放列表,它以非常简单的方式解释了 YOLO,并且在您观看视频后可能会再次阅读论文以完全了解事情是如何工作的。