特别是在机器学习文献中面向计算机科学的方面,AUC(接收器操作特征曲线下的面积)是评估分类器的流行标准。使用 AUC 的理由是什么?例如,是否存在一个特定的损失函数,其最优决策是具有最佳 AUC 的分类器?
使用 AUC 的原理?
机器算法验证
机器学习
鹏
2022-03-18 11:37:39
2个回答
对于二元分类器用于排名(即对于每个示例我们有在区间) 从中测量 AUC,AUC 等于以下概率在哪里是一个真正的正面例子,并且是一个真正的反面例子。因此,选择具有最大 AUC 的模型可以最小化. 也就是说,最小化排名一个真正的否定至少与一个真正的肯定一样大的损失。
让我们举一个简单的例子,从好番茄和坏番茄中识别出好番茄。假设好番茄的数量是 100,坏番茄是 1000,所以总共有 1100 个。现在你的工作是识别尽可能多的好番茄。获得所有好番茄的一种方法是吃掉所有 1100 个番茄。但它清楚地表明您无法区分 b/n good 与 bad。
那么,什么是区分的正确方法 - 需要获得尽可能多的好人,同时挑选很少的坏人,所以我们需要衡量一些东西,它可以说明我们选择了多少好人,也可以说明坏人算什么它。如果 AUC 衡量指标能够选择更多好的指标和少数劣质指标,则其权重更大,如下图所示。这说明您能够区分 b/n 好坏的程度。
在示例中,您可以观察到,在拾取 70% 的好番茄时,黑色曲线拾取了大约 48% 的坏番茄(杂质),而蓝色曲线拾取了 83% 的坏番茄(杂质)。所以黑色曲线与蓝色曲线相比具有更好的 AUC 分数。
其它你可能感兴趣的问题