为什么分类任务首选 F 度量?

数据挖掘 机器学习 评估 计分 公制 nlg
2021-10-04 07:55:14

为什么 F-measure 通常用于(监督)分类任务,而 G-measure(或 Fowlkes-Mallows 指数)通常用于(无监督)聚类任务?

F-measure 是准确率和召回率的调和平均值

G-measure(或 Fowlkes-Mallows 指数)是准确率和召回率的几何平均值

下面是不同方法的图。

在此处输入图像描述

F1(谐波)=2preC一世s一世nreC一个llpreC一世s一世n+reC一个ll

几何的=preC一世s一世nreC一个ll

算术=preC一世s一世n+reC一个ll2

我问的原因是我需要决定在 NLG 任务中使用哪个平均值,在那里我测量了BLEUROUGE(其中 BLEU 相当于要召回的精度和 ROUGE)。我应该如何计算这些分数的平均值?

3个回答

为了解决数据集不平衡的问题,Fı-score 优于简单的分类精度;如果您正在寻找的东西无论如何都很少发生,那么一个天真的分类器总是可以说不并且看起来工作得很好!Fı 的一个变体是 Fß,其中

Fß = (1+ß²) × [ (P × R) ÷ ( (ß² × P) + R ) ]

改变 ß 以平衡精度和召回率。至于为什么是 F 或 G,我认为它是经验性的 - 你没有说你是否在自己的应用程序中进行分类或聚类?

评分函数用作绩效的客观衡量标准。评分函数的选择本身是主观的,应该反映您或问题认为在您跟踪的任何指标(例如,精确度和召回率,或灵敏度和特异性,或 BLEU 和 ROUGE)之间的平衡方面很重要。

算术平均值、几何平均值和调和平均值都是广义平均值族的特例,这意味着它们在概念上是相关的。对于您的任务,算术平均值表示 BLEU 或 ROUGE 是否较高之间没有偏好,并且将一个值增加和另一个值减少相同的量没有区别。几何平均值和谐波平均值都惩罚 BLEU 和 ROUGE 之间的差异,谐波平均值比几何平均值更“悲观”。这可以在您的图中看到,其中算术曲线位于几何曲线上方,谐波曲线位于底部。使用广义平均值,您可以主观地选择算术曲线上方、谐波曲线下方或两者之间的任何曲线。调和平均数或几何平均数更有意义没有内在原因,它们只是有简单的公式。选择更符合您如何评估 BLEU 和 ROUGE 之间权衡的匹配项。同样,您可以根据广义均值决定不想使用这些均值中的任何一种。

如果 Precision 和 Recall 相似,F1 是比较不同模型的一个很好的单一度量。

简短而甜蜜:)