如何解释 F 度量值?

机器算法验证 分类 精确召回
2022-02-02 01:05:13

我想知道如何解释 f 测量值的差异。我知道 f-measure 是精度和召回率之间的平衡平均值,但我问的是 F-measures 差异的实际意义。

例如,如果一个分类器 C1 的准确度为 0.4,另一个分类器 C2 的准确度为 0.8,那么我们可以说 C2 与 C1 相比正确分类了两倍的测试示例。但是,如果分类器 C1 对某个类的 F-measure 为 0.4,而另一个分类器 C2 的 F-measure 为 0.8,那么我们可以说明这两个分类器的性能差异是什么?我们可以说 C2 比 C1 更正确地分类了 X 个实例吗?

4个回答

我想不出 F 度量的直观含义,因为它只是一个组合度量。当然,比 F-mesure 更直观的是精度和召回率。

但是使用两个值,我们通常无法确定一种算法是否优于另一种算法。例如,如果一种算法比另一种算法具有更高的精度但更低的召回率,那么你如何判断哪种算法更好?

如果您有一个特定的目标,例如“精确为王”。我不太在乎回忆',那就没有问题了。精度越高越好。但是,如果您没有如此强烈的目标,您将需要一个综合指标。那是F-measure。通过使用它,您将比较一些精度和一些召回率。

通常绘制 ROC 曲线来说明 F 度量。您可能会发现这篇文章很有趣,因为它包含对包括 ROC 曲线在内的多种度量的解释:http: //binf.gmu.edu/mmasso/ROC101.pdf

F1 分数的重要性因目标变量的分布而异。让我们假设目标变量是一个二进制标签。

  • Balanced class:在这种情况下,F1分数可以有效地忽略,错误分类率是关键。
  • 不平衡类,但两个类都很重要:如果类分布高度偏斜(例如 80:20 或 90:10),则分类器只需选择多数类即可获得较低的误分类率。在这种情况下,我会选择在两个类上都获得高 F1 分数以及低误分类率的分类器。应忽略 F1 分数较低的分类器。
  • 不平衡的类,但如果一个类比另一个类更重要的话。例如,在欺诈检测中,正确地将实例标记为欺诈比标记非欺诈实例更为重要。在这种情况下,我会选择仅在重要类上具有良好 F1 分数的分类器回想一下,每个班级都有 F1 分数。

F-measure具有直观的意义。它告诉你你的分类器有多精确(它正确分类了多少实例),以及它有多健壮(它不会遗漏大量实例)。

具有高精度但低召回率的分类器非常准确,但它会遗漏大量难以分类的实例。这不是很有用。

看看这个直方图。在此处输入图像描述忽略它的初衷。

向右,你会得到高精确度,但低召回率。如果我只选择分数高于 0.9 的实例,我的分类实例将非常精确,但是我会错过大量实例。实验表明,这里的最佳点在 0.76 左右,而 F-measure 为 0.87。

F-measure 是准确率和召回率的调和平均值。在大多数情况下,您需要在准确率和召回率之间进行权衡。如果你优化你的分类器来增加一个并且不喜欢另一个,调和平均值会迅速降低。然而,当准确率和召回率相等时,它是最好的。

给定分类器的 F 度量为 0.4 和 0.8,您可以预期这些是在权衡精度与召回率时达到的最大值。

如需视觉参考,请查看Wikipedia中的此图:

在此处输入图像描述

F-measure 是HAB是召回率和精度。你可以增加一个,然后另一个减少。