在二元分类问题中,F1 分数似乎经常被用作性能衡量标准。据我了解,这个想法是在精确度和召回率之间找到最佳权衡。F1 分数的公式在准确率和召回率上是对称的。但是,(这就是困扰我的地方)精度和召回率之间存在不对称性。虽然召回是分类器的一个属性,它独立于先验概率,但精度是一个依赖于先验概率的量。
谁能告诉我精确率和召回率的结合有什么特别之处?为什么我们不使用精度(即阳性预测值)和阴性预测值?
在二元分类问题中,F1 分数似乎经常被用作性能衡量标准。据我了解,这个想法是在精确度和召回率之间找到最佳权衡。F1 分数的公式在准确率和召回率上是对称的。但是,(这就是困扰我的地方)精度和召回率之间存在不对称性。虽然召回是分类器的一个属性,它独立于先验概率,但精度是一个依赖于先验概率的量。
谁能告诉我精确率和召回率的结合有什么特别之处?为什么我们不使用精度(即阳性预测值)和阴性预测值?
F1 分数对精度和召回的权重相等,但是对于您考虑召回的任何情况,都可以轻松概括比精确更重要。请参阅https://en.wikipedia.org/wiki/F1_score:
F1 只是调和平均值。简单的平均值不太有意义,因为精度和召回率具有相同的分子(真阳性)但分母不同(测试阳性,条件阳性)。所以只有调和平均值才有意义。我不知道是否还有比这更多的理论——最简单的加权平均值是有意义的。
我想我明白了你的要点,我将其解释为精度在分母中具有“测试阳性”这一事实,因此对分类器标记为阳性的程度非常敏感。出于这个原因,您不会经常看到例如精确召回曲线。您会看到 ROC 曲线,它们是召回特异性曲线(真阳性率与假阳性率)。
这更接近您的建议,但您建议的是 PPV 与 NPV。当然,根据您的用例,这可能是有效的,但我认为这个论点倾向于另一种方式,而不是召回特异性,而不是精确 NPV。
如果它纯粹是一个二元分类问题(A 类与 B 类),那么 F 分数的好处主要是用于表征不平衡数据集的性能(一个类的实例多于另一个)和您的问题/担忧更相关。F 分数状态的 Wikipedia 页面
“但是请注意,F 度量没有考虑真正的否定,并且诸如 Phi 系数、马修斯相关系数、知情度或 Cohen 的 kappa 之类的度量可能更适合评估二元分类器的性能。 ”
但是,如果分类器打算成为一个检测器,那么人们通常对目标类(正)的性能比非目标类(负)更感兴趣。此外,目标通常是数据集中代表性不足的目标。在这种情况下,我认为想知道检测到目标的比例(召回)以及每次检测的可靠性/可信度(精度)更直观。虽然知道检测器在不检测非目标方面有多好(负预测值)可能有价值,但在尝试用不平衡的数据集描述目标检测器的性能时,处理它并不是一个非常有见地的量。
简而言之,F-score 调优参数 () 提供了一种更直观的方法来平衡检测所有目标的重要性(高召回率)和高置信度检测的重要性(高精度)。另请注意,F 分数可以用 I 型和 II 型错误来编写(请参阅上面的 Wikipedia 链接)。