使用 AUC 的原理?

机器算法验证 机器学习
2022-03-18 11:37:39

特别是在机器学习文献中面向计算机科学的方面,AUC(接收器操作特征曲线下的面积)是评估分类器的流行标准。使用 AUC 的理由是什么?例如,是否存在一个特定的损失函数,其最优决策是具有最佳 AUC 的分类器?

2个回答

对于二元分类器C用于排名(即对于每个示例e我们有C(e)在区间[0,1]) 从中测量 AUC,AUC 等于以下概率C(e1)>C(e0)在哪里e1是一个真正的正面例子,并且e0是一个真正的反面例子。因此,选择具有最大 AUC 的模型可以最小化C(e0)C(e1). 也就是说,最小化排名一个真正的否定至少与一个真正的肯定一样大的损失。

让我们举一个简单的例子,从好番茄和坏番茄中识别出好番茄。假设好番茄的数量是 100,坏番茄是 1000,所以总共有 1100 个。现在你的工作是识别尽可能多的好番茄。获得所有好番茄的一种方法是吃掉所有 1100 个番茄。但它清楚地表明您无法区分 b/n good 与 bad

那么,什么是区分的正确方法 - 需要获得尽可能多的好人,同时挑选很少的坏人,所以我们需要衡量一些东西,它可以说明我们选择了多少好人,也可以说明坏人算什么它。如果 AUC 衡量指标能够选择更多好的指标和少数劣质指标,则其权重更大,如下图所示。这说明您能够区分 b/n 好坏的程度。

在示例中,您可以观察到,在拾取 70% 的好番茄时,黑色曲线拾取了大约 48% 的坏番茄(杂质),而蓝色曲线拾取了 83% 的坏番茄(杂质)。所以黑色曲线与蓝色曲线相比具有更好的 AUC 分数。 在此处输入图像描述