我的数据集有两个类 A 和 B。应该平等对待这些类(没有“活动/非活动”)。数据集是不平衡的,有时 A 更频繁,有时 B 更频繁。我应该使用哪种绩效衡量标准?
准确性对不平衡的数据集毫无意义。如果我做对了,F-measure 和 AUC 假设有一个活动类别:F-measure 忽略真正的否定,因为它是精度和召回率的调和平均值。AUC 忽略真阴性和假阴性。
那么我应该使用什么性能指标呢?AUC(active=A) + AUC(active=B) / 2 是一个有效的选项吗?
更正:
显然,我误解了 AUC 的工作原理。它不会忽略真阴性和假阴性。ROC 曲线看起来不同,具体取决于哪个类被认为是活跃的,但 AUC(active=A) = AUC(active=B)。