数据挖掘 - 如何计算图像分割的平均精度？ - 吾爱随笔录

如果我理解正确的话，在计算对象检测的 AP（例如 VOC、COCO 等）时，程序是：

收集数据集中所有检测到的对象
按置信度分数对检测进行排序
通过将 Intersection over Union 与 Ground Truth 对象与预设阈值进行比较，将每个检测分类为 True Positive 或 False Positive
绘图精度 $\frac{TP}{n}$ 反对召回 $\frac{n}{N}$ , 其中 n 是列表中到目前为止已考虑的对象数，N 是对象总数
将 Precision 与 Recall 相结合。（有多种不同的方式来执行集成。）

当我尝试复制这些分割步骤时，我发现我的分割 CNN 没有提供置信度作为输出。即使是这样，也可能是针对每个单独的像素。所以我被困在第2步。

不按置信度排序计算AP显然会改变结果。但它在某种意义上仍然“有效”吗？如果没有，是否有一个大致等效的指标可以用来比较分割结果？（或者更一般地说，一种无法进行排名的检测指标？）

编辑：查看VOCdevkit，似乎他们使用准确性 $\frac{TP}{TP+FP+FN}$ 而不是 AP 作为评估分割的指标。那是我应该做的吗？在我看来，AP 是“更好”的指标，所以我更愿意使用尽可能接近的指标。

查看Berkeley Simultaneous Detection and Segmentation code和随附的论文，他们计算了一个像素级 AP（称为 $AP^r$ )，但似乎他们对每个对象都有一个置信度分数。