我想知道如何解释 f 测量值的差异。我知道 f-measure 是精度和召回率之间的平衡平均值,但我问的是 F-measures 差异的实际意义。
例如,如果一个分类器 C1 的准确度为 0.4,另一个分类器 C2 的准确度为 0.8,那么我们可以说 C2 与 C1 相比正确分类了两倍的测试示例。但是,如果分类器 C1 对某个类的 F-measure 为 0.4,而另一个分类器 C2 的 F-measure 为 0.8,那么我们可以说明这两个分类器的性能差异是什么?我们可以说 C2 比 C1 更正确地分类了 X 个实例吗?