F1/骰子分数与 IoU

机器算法验证 术语 准确性 精确召回
2022-02-04 03:27:15

我对 F1 分数、骰子分数和 IoU(联合交叉)之间的差异感到困惑。到目前为止,我发现 F1 和 Dice 的含义相同(对吗?),而 IoU 的公式与其他两个非常相似。

  • F1 / 骰子:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

除了 F1 对真阳性的权重更高之外,是否有任何实际差异或其他值得注意的事情?有没有一种情况我会使用其中一种而不是另一种?

3个回答

你在正确的轨道上。

所以有几件事情马上就完成了。根据这两个指标的定义,我们得到 IoU 和 F 分数总是在 2 倍以内: 并且它们在条件下满足于 1 和 0 的极值你所期望的(完美匹配和完全脱节)。

F/2IoUF

另请注意,它们之间的比率可以明确地与 IoU 相关: ,因此当两个指标都接近零时,比率接近 1/2。

IoU/F=1/2+IoU/2

但是对于分类的典型应用,例如机器学习,可以做出更强有力的陈述。对于任何固定的“基本事实”,这两个指标总是正相关的。也就是说,如果分类器 A 在一个度量下优于 B,那么在另一个度量下它也优于分类器 B。

然后很容易得出结论,这两个指标在功能上是等效的,因此它们之间的选择是任意的,但不是那么快!当对一组推论取平均分时,问题就来了然后,当量化任何给定情况下分类器 B 比 A 差多少时,差异就出现了。

一般来说,IoU 指标倾向于在数量上比 F 分数更倾向于惩罚错误分类的单个实例,即使它们都同意这个实例是错误的。与 L2 比 L1 惩罚最大错误的方式类似,IoU 指标倾向于对相对于 F 分数的错误产生“平方”效应。因此,F 分数倾向于衡量更接近平均性能的东西,而 IoU 分数往往衡量更接近最坏情况性能的东西。

例如,假设绝大多数推理使用分类器 A 比使用 B 好,但其中一些推理使用分类器 A 明显更差。那么可能的情况是 F 度量有利于分类器 A,而 IoU 度量有利于分类器 A分类器 B。

可以肯定的是,这两个指标的相似之处多于不同之处。但是,从在许多推论中取这些分数的平均值的角度来看,它们都存在另一个缺点:它们都夸大了具有很少或没有实际基本真值正集的集合的重要性。在图像分割的常见示例中,如果图像只有某个可检测类别的单个像素,而分类器检测到该像素和另一个像素,则其 F 得分低至 2/3,IoU 甚至更差为 1/ 2. 像这样的小错误会严重影响一组图像的平均分数。简而言之,它对每个像素误差的权重与所选/相关集的大小成反比,而不是平等对待它们。

有一个更简单的指标可以避免这个问题。只需使用总误差:FN + FP(例如,5% 的图像像素被错误分类)。在一个比另一个更重要的情况下,可以使用加权平均: FP + FN。c0c1

是的,它们确实代表了不同的事物,并且在查看公式时具有不同的含义。但是,当您将它们作为评估指标来比较不同模型的性能时,您只需选择其中之一即可。

原因可以通过以下证据来解释:

首先,让

a=TP,b=TP+FP+TN

那么,我们有

IoU=TPTP+FP+TN=ab
Dice=TP+TPTP+TP+FP+TN=2aa+b

因此,

Dice=2aba+bb=2abab+1=2IoUIoU+1

考虑线图y=2x/(x+1)在 [0,1] 的范围内,我们发现 Dice 与 IoU 具有单调递增的关系。那么就不会出现以下情况:Dice1<Dice2尽管IoU1>IoU2(下标代表不同的型号)。 也就是说,Dice score 只是数字意义上的 IoU 的类似表示。仅使用其中一个进行模型比较就足够了。

对于上面 Nico 的回答,我想知道 IoU 不应该是 TP/(TP+FP+ FN ) 而不是 TP/(TP+FP+ TN ) 吗?骰子分数也不应该是 (TP+TP)/(TP+TP+FP+ FN ) 吗?