如果我理解正确的话,在计算对象检测的 AP(例如 VOC、COCO 等)时,程序是:
- 收集数据集中所有检测到的对象
- 按置信度分数对检测进行排序
- 通过将 Intersection over Union 与 Ground Truth 对象与预设阈值进行比较,将每个检测分类为 True Positive 或 False Positive
- 绘图精度反对召回, 其中 n 是列表中到目前为止已考虑的对象数,N 是对象总数
- 将 Precision 与 Recall 相结合。(有多种不同的方式来执行集成。)
当我尝试复制这些分割步骤时,我发现我的分割 CNN 没有提供置信度作为输出。即使是这样,也可能是针对每个单独的像素。所以我被困在第2步。
不按置信度排序计算AP显然会改变结果。但它在某种意义上仍然“有效”吗?如果没有,是否有一个大致等效的指标可以用来比较分割结果?(或者更一般地说,一种无法进行排名的检测指标?)
编辑:查看VOCdevkit,似乎他们使用准确性而不是 AP 作为评估分割的指标。那是我应该做的吗?在我看来,AP 是“更好”的指标,所以我更愿意使用尽可能接近的指标。
查看Berkeley Simultaneous Detection and Segmentation code和随附的论文,他们计算了一个像素级 AP(称为),但似乎他们对每个对象都有一个置信度分数。