为什么分类任务首选 F 度量?
数据挖掘
机器学习
评估
计分
公制
nlg
2021-10-04 07:55:14
3个回答
为了解决数据集不平衡的问题,Fı-score 优于简单的分类精度;如果您正在寻找的东西无论如何都很少发生,那么一个天真的分类器总是可以说不并且看起来工作得很好!Fı 的一个变体是 Fß,其中
Fß = (1+ß²) × [ (P × R) ÷ ( (ß² × P) + R ) ]
改变 ß 以平衡精度和召回率。至于为什么是 F 或 G,我认为它是经验性的 - 你没有说你是否在自己的应用程序中进行分类或聚类?
评分函数用作绩效的客观衡量标准。评分函数的选择本身是主观的,应该反映您或问题认为在您跟踪的任何指标(例如,精确度和召回率,或灵敏度和特异性,或 BLEU 和 ROUGE)之间的平衡方面很重要。
算术平均值、几何平均值和调和平均值都是广义平均值族的特例,这意味着它们在概念上是相关的。对于您的任务,算术平均值表示 BLEU 或 ROUGE 是否较高之间没有偏好,并且将一个值增加和另一个值减少相同的量没有区别。几何平均值和谐波平均值都惩罚 BLEU 和 ROUGE 之间的差异,谐波平均值比几何平均值更“悲观”。这可以在您的图中看到,其中算术曲线位于几何曲线上方,谐波曲线位于底部。使用广义平均值,您可以主观地选择算术曲线上方、谐波曲线下方或两者之间的任何曲线。调和平均数或几何平均数更有意义没有内在原因,它们只是有简单的公式。选择更符合您如何评估 BLEU 和 ROUGE 之间权衡的匹配项。同样,您可以根据广义均值决定不想使用这些均值中的任何一种。
如果 Precision 和 Recall 相似,F1 是比较不同模型的一个很好的单一度量。
简短而甜蜜:)
其它你可能感兴趣的问题