今天在我工作的公司中,我们使用 F1 分数来评估我们模型的性能,我们的竞争对手也使用相同的指标。
我想了解 F1、F2 和 mAP 之间有什么区别?(请不要解释我如何计算它们,我也知道 F 度量对精度和召回率赋予相同的权重,而 mAP 从所有召回中选择最佳精度)
为什么在我正在阅读的竞赛(例如 PASCAL VOC)和对象检测文章中,总是首选使用 mAP 而不是 F1 或 F2 分数?
谢谢 !
今天在我工作的公司中,我们使用 F1 分数来评估我们模型的性能,我们的竞争对手也使用相同的指标。
我想了解 F1、F2 和 mAP 之间有什么区别?(请不要解释我如何计算它们,我也知道 F 度量对精度和召回率赋予相同的权重,而 mAP 从所有召回中选择最佳精度)
为什么在我正在阅读的竞赛(例如 PASCAL VOC)和对象检测文章中,总是首选使用 mAP 而不是 F1 或 F2 分数?
谢谢 !
AP 比 F 分数更准确,因为它考虑了全局的 PR 关系。文章在VOC上采用mAP是因为它是官方的度量标准,他们必须与也采用该度量标准的其他方法进行比较。其他竞争如一些文本检测也采用 PR 和 F 分数作为默认指标。