评估不平衡数据的二元分类准确性的措施是什么?

机器算法验证 机器学习 数据挖掘 不平衡类 准确性 损失函数
2022-03-31 10:44:55

现在我遇到了正样本大约是负样本数量的 100 倍的二元分类问题。在这种情况下,正常的准确度度量(预测 == 标签)不是一个好的度量。还有哪些措施?精确度、负样本召回率还是 F-1 测量最好?如果模型是概率模型,AUC(曲线下面积)是一个很好的衡量标准吗?

1个回答

任何使用任意截断值并对连续信息(例如类成员概率)进行二分法的方法都是有问题的。而分类准确率是不正确的准确率评分规则,被错误的模型优化。一致性概率( -index;ROC 面积)是纯粹区分的量度。对于整体度量,请考虑称为 Brier 分数的适当准确度分数,或使用基于广义似然的度量。cR2