人工智能 - Yolo v1 和 CenterNet 有什么区别？ - 吾爱随笔录

我最近阅读了一篇新论文（2019 年末），关于名为CenterNet的一次性目标检测器。除此之外，我使用的是 Yolo (V3) one-shot 检测器，让我感到惊讶的是Yolo V1 和 CenterNet 之间的密切相似性。

首先，这两个框架都将对象检测视为回归问题，每个框架都输出一个张量，可以将其视为带有单元格的网格（下面是输出网格的示例）。

此网格中的每个单元格都预测一个对象类别、相对于单元格位置的框偏移量和框大小。Yolo V1 和 CenterNet 之间唯一的主要区别是 Yolo 还预测了一个对象置信度分数，它在 CenterNet 中由类分数表示。Yolo 还预测了 2 个盒子。

简而言之，一个单元位置的张量Class + B x (Conf + Size + Off)用于 Yolo V1 和Class + Size + OffCenterNet。

训练策略也非常相似。只有包含地面实况中心的单元格负责该检测，从而影响损失。靠近地面实况中心的单元（基于 CenterNet 的距离和 Darknet 的 IoU）在损失（CenterNet 的 Focal Loss 与 Yolo 的调整超参数）中的损失降低了。

损失函数具有几乎相同的结构（见上文），除了在 CenterNet 中首选 L1 而 Yolo 使用 L2 以及其他细微之处。

我的观点并不是说 Yolo V1 和 CenterNet 是一样的——没有——但它们更接近于乍一看。

问题是最近的论文，如 CenterNet（CornerNet、ExtremeNet、Triplet CenterNet、MatrixNet）都声称是“基于关键点的检测器”，而它们与常规的“基于锚点”的检测器并没有太大区别（实际上是预处理回归器））。

相反，我认为 Yolo 和 CenterNet 之间最大的区别在于 CenterNet (64x64) 的主干分辨率更高，而 Darknet 只有 7 或 8 个。

我的问题是：您是否看到我可能遗漏的两个概念之间的主要区别，这可以解释性能差距？我知道新的主干、新的损失函数和更好的分辨率可以提高准确性，但是这两种方法之间是否存在结构差异？