机器算法验证 - 使用 AUC 的原理？ - 吾爱随笔录

使用 AUC 的原理？

机器算法验证机器学习鹏

2022-03-18 11:37:39

特别是在机器学习文献中面向计算机科学的方面，AUC（接收器操作特征曲线下的面积）是评估分类器的流行标准。使用 AUC 的理由是什么？例如，是否存在一个特定的损失函数，其最优决策是具有最佳 AUC 的分类器？

2个回答

对于二元分类器 $C$ 用于排名（即对于每个示例 $e$ 我们有 $C(e)$ 在区间 $[0, 1]$ ) 从中测量 AUC，AUC 等于以下概率 $C(e_1) > C(e_0)$ 在哪里 $e_1$ 是一个真正的正面例子，并且 $e_0$ 是一个真正的反面例子。因此，选择具有最大 AUC 的模型可以最小化 $C(e_0) \geq C(e_1)$ . 也就是说，最小化排名一个真正的否定至少与一个真正的肯定一样大的损失。

让我们举一个简单的例子，从好番茄和坏番茄中识别出好番茄。假设好番茄的数量是 100，坏番茄是 1000，所以总共有 1100 个。现在你的工作是识别尽可能多的好番茄。获得所有好番茄的一种方法是吃掉所有 1100 个番茄。但它清楚地表明您无法区分 b/n good 与 bad。

那么，什么是区分的正确方法 - 需要获得尽可能多的好人，同时挑选很少的坏人，所以我们需要衡量一些东西，它可以说明我们选择了多少好人，也可以说明坏人算什么它。如果 AUC 衡量指标能够选择更多好的指标和少数劣质指标，则其权重更大，如下图所示。这说明您能够区分 b/n 好坏的程度。

在示例中，您可以观察到，在拾取 70% 的好番茄时，黑色曲线拾取了大约 48% 的坏番茄（杂质），而蓝色曲线拾取了 83% 的坏番茄（杂质）。所以黑色曲线与蓝色曲线相比具有更好的 AUC 分数。

其它你可能感兴趣的问题

上一篇改进糖尿病的SVM分类下一篇带有 R 的 Tobit 模型