不平衡数据集的 F1 得分如何

数据挖掘 阶级失衡 f1score
2021-10-10 04:59:39

我在这个网站上读到过,如果数据集不平衡并且你想在召回和进动之间寻求平衡,建议使用 F1 分数。您能否解释一下 F1 在不平衡数据集方面的用途?

1个回答

F1分数


F1分数的公式是:

F1=2*精度*召回率精度+召回

F1-score可以解释为精度和召回率的加权平均调和平均值,其中精度召回率对F1-score的相对贡献相等。F1-score1和最差的分数0.

我们试图通过F1-score指标实现的是在准确率和召回率之间找到相等的平衡 ,这在我们处理不平衡数据集(即类别分布不均匀的数据集)的大多数情况下非常有用标签)

例如,如果我们将PREREC两个指标分别写为True Positives (TP)True Negatives (TN)False Positives (FP)False Negatives (FN),我们得到:

R=TP (TP + FP)

RC=TP  (TP + FN)

因此,精确度得分为我们提供了一个概念(表示为从 1.0 到 0.0 的得分,从好到坏) ,在我们分类为垃圾邮件的所有电子邮件中,我们正确分类为垃圾邮件的实际垃圾邮件(TP)的比例( TP + FP)相比之下,召回率(也从 1.0 到 0.0)告诉我们我们“检索”“召回”(TP + FN)的实际垃圾邮件(TP )的数量。

当我们创建分类器时,通常我们需要在召回率准确率之间做出折衷,很难将高召回率低准确率的模型与高准确率但低召回率的模型进行比较。F1-score将这两个指标合并为一个度量,我们可以用它来比较两个模型。这并不是说具有更高F1 分数的模型总是更好,因为它取决于用例。在使用基于模型的指标来评估不平衡分类问题时,通常建议查看准确率和召回率得分以全面评估模型的整体有效性。

具有高召回率低精度分数的模型会返回许多积极的结果,但与基本事实相比,它的大多数预测标签是不正确的另一方面,具有高精度召回分数低的模型返回的结果很少,但与ground-truth相比,它的大多数预测标签都是正确的理想的场景是具有高精度高召回率的模型,这意味着它将返回许多结果,并且所有结果都正确标记。不幸的是,在大多数情况下,精度回忆往往处于紧张状态。也就是说,提高精度通常会降低召回率,反之亦然。