在计算精度和召回率的 F-measure 时,为什么使用调和平均值?

机器算法验证 数理统计 调和平均
2022-04-11 02:15:39

维基百科中关于 F-measure的文章说:

传统的 F-measure 或平衡 F-score (F1 score) 是准确率和召回率的调和平均值: F1=2×precision×recallprecision+recall

为什么特别使用调和平均值,而不是算术平均值或几何平均值或任何其他类型的平均值

计算调和均值到底是什么意思?

1个回答

F-measure 常用于自然语言识别领域作为评价手段。特别是,消息理解会议 (MUC) 采用了 F-measure,以评估命名实体识别 (NER) 任务。直接引自D. Nadeau 撰写的《命名实体识别与分类调查》 :

两个数的调和平均值永远不会高于几何平均值。它也趋向于最少的数量,最小化大异常值的影响并最大化小异常值的影响。因此,F-measure 倾向于优先考虑平衡系统。