不平衡二元类的宏观和微观平均值
数据挖掘
机器学习
阶级失衡
评估
2022-02-25 23:18:17
1个回答
当类不平衡时,在二元分类问题中使用微观和宏观精度是否有意义?
一般来说,微观和宏观平均性能与二元分类无关,无论类是否平衡。如果存在严重的不平衡,它们的值可能会特别容易产生误导,因为它同时考虑了少数类(分类器更难)和多数类(更容易):
- 根据定义,微平均赋予多数类更多的权重,因此即使分类器在区分这两个类方面做得很糟糕,微平均性能也可能很高。
- 宏观平均值不偏向这两个类别中的任何一个,但它仍然是无用的复杂,它比简单的正类表现更难理解发生了什么,正类通常是少数(因为那是具有挑战性的一类)。
当然,在某些情况下,不遵循此标准评估设置是有意义的,它始终是选择合适的方式来评估特定任务的问题。
下面的例子说明了为什么微观和宏观平均在标准的不平衡情况下会令人困惑:
true A true B
predicted A 90 9
predicted B 0 1
- 对于 A:精度 = 0.91,召回率 = 1,f1-score = 0.95
- 对于 B:精度 = 1,召回率 = 0.1,f1-score = 0.18
- 微平均:精度 = 0.91,召回率 = 0.91,f1-score = 0.91
- 宏观平均:精度 = 0.95,召回率 = 0.55,f1 分数 = 0.70
假设我们除了选择的性能度量之外什么都不知道,这个分类器:
- 根据大多数A类的表现表现几乎完美,
- 根据微平均表现非常好,
- 根据宏观平均表现得体,
- 根据少数B类的表现,表现非常糟糕。
查看混淆表,很明显分类器在区分两个类方面做得不好。所以最“诚实”的表现衡量标准是最后一个,即少数类的非平均表现。
