我正在阅读 Andrew NG 的课程,其中谈到了 YOLO,但他没有深入讨论锚框的实现细节。
看完代码,每个anchor box都是用两个值来表示的,但是这些值到底代表什么呢?
至于对锚框的需求,我也有点困惑——据我所知,地面实况标签大约有 6 个变量:
- 检查它是对象还是背景,
- 和是中心坐标
- 和是盒子的高度和宽度
- 是对象类,这取决于你有多少类,所以你可以有多个
至于创建边界框,
除以 2,离中心点的一半() 到顶部,另一半到底部。
如果我们训练我们的分类器,随着训练的进行,预测框是否会接近真实标签?所以,如果我们的ground truth标签对于某些图像具有高高度、小宽度作为框,而对于其他图像具有低高度和大宽度,我们的分类器不会自动学习区分何时使用一个而不是另一个,因为它正在接受培训?如果是这样,那么锚框有什么用?那些代表锚框的数字代表什么?