我想更深入地了解锚盒的细节。然而,通过查看相关的代码和论文,我无法完整地掌握这个概念。我查看了很多 quora 问题、博客文章和论文,也试图解释这个概念,但它们从未深入细节(对于傻瓜)。我希望这里有人好心花点时间。
我目前的理解是这样的:
- 我们获取输入图像并创建该图像的特征图,直到我们提出维度宽度 x 高度 x 通道的特征图。这些维度是明显的并且小于原始输入图像维度。
- 我们对边界框应用回归和分类头,锚在这里发挥作用(不确定具体如何)。最终的损失函数然后通过交叉熵损失和锚框的坐标偏移量回归锚框的类别,例如通过 L1 损失。对于损失计算本身,只选择了几个锚框,通常是那些与真实框和随机背景框具有高 IoU 的锚框。
- 可以应用诸如焦点损失之类的其他因素来提高训练性能。锚框也可以应用于不同深度的特征,从而对网络进行缩放。
到目前为止,对于高级概念。我的问题:
- 这些锚盒的损失究竟是如何评估的?损失只关注盒子的内部值还是整个图像?