我最近阅读了一篇新论文(2019 年末),关于名为CenterNet的一次性目标检测器。除此之外,我使用的是 Yolo (V3) one-shot 检测器,让我感到惊讶的是Yolo V1 和 CenterNet 之间的密切相似性。
首先,这两个框架都将对象检测视为回归问题,每个框架都输出一个张量,可以将其视为带有单元格的网格(下面是输出网格的示例)。
此网格中的每个单元格都预测一个对象类别、相对于单元格位置的框偏移量和框大小。Yolo V1 和 CenterNet 之间唯一的主要区别是 Yolo 还预测了一个对象置信度分数,它在 CenterNet 中由类分数表示。Yolo 还预测了 2 个盒子。
简而言之,一个单元位置的张量Class + B x (Conf + Size + Off)
用于 Yolo V1 和Class + Size + Off
CenterNet。
训练策略也非常相似。只有包含地面实况中心的单元格负责该检测,从而影响损失。靠近地面实况中心的单元(基于 CenterNet 的距离和 Darknet 的 IoU)在损失(CenterNet 的 Focal Loss 与 Yolo 的调整超参数)中的损失降低了。
损失函数具有几乎相同的结构(见上文),除了在 CenterNet 中首选 L1 而 Yolo 使用 L2 以及其他细微之处。
我的观点并不是说 Yolo V1 和 CenterNet 是一样的——没有——但它们更接近于乍一看。
问题是最近的论文,如 CenterNet(CornerNet、ExtremeNet、Triplet CenterNet、MatrixNet)都声称是“基于关键点的检测器”,而它们与常规的“基于锚点”的检测器并没有太大区别(实际上是预处理回归器) )。
相反,我认为 Yolo 和 CenterNet 之间最大的区别在于 CenterNet (64x64) 的主干分辨率更高,而 Darknet 只有 7 或 8 个。
我的问题是:您是否看到我可能遗漏的两个概念之间的主要区别,这可以解释性能差距?我知道新的主干、新的损失函数和更好的分辨率可以提高准确性,但是这两种方法之间是否存在结构差异?