虽然这两个统计量度可能是相关的,但它们测量了分类器的不同质量。
奥罗克
曲线下面积(AUC)等于分类器将随机选择的正例排名高于随机选择的负例的概率。它衡量分类器根据它们属于正类的程度对一组模式进行排序的技能,但没有实际将模式分配给类。
总体准确度还取决于分类器对模式进行排序的能力,还取决于它在排序中选择阈值的能力,如果高于阈值则将模式分配给正类,如果低于阈值则分配给负类。
因此,具有较高 AUROC 统计量(所有条件相同)的分类器也可能具有更高的整体准确度,因为模式的排名(AUROC 测量的)对 AUROC 和整体准确度都有好处。但是,如果一个分类器对模式进行了很好的排序,但选择的阈值很差,它可能具有较高的 AUROC,但总体准确度较差。
实际使用
在实践中,我喜欢收集总体准确度、AUROC 以及分类器是否估计类成员的概率、交叉熵或预测信息。然后我有一个衡量其执行硬分类的原始能力的指标(假设假阳性和假阴性错误分类成本相等,并且样本中的类频率与操作使用中的类频率相同 - 一个很大的假设!),衡量模式排名能力的指标和衡量排名作为概率校准的程度的指标。
对于许多任务,操作错误分类成本是未知的或可变的,或者操作类别频率与训练样本中的频率不同或可变。在这种情况下,整体准确度通常毫无意义,而 AUROC 是更好的性能指标,理想情况下,我们需要一个输出经过良好校准的概率的分类器,以便我们可以在操作使用中补偿这些问题。本质上,哪个指标重要取决于我们试图解决的问题。