随机分类器的 AUC-ROC

数据挖掘 分类
2021-10-04 10:08:52

为什么随机分类器的 ROC 曲线下面积等于 0.5 并且呈对角线形状?对我来说,随机分类器将有 25% 的 TP、TN、FP、FN,因此它只是 ROC 曲线上的一个点。

3个回答

前提:您上面提到的混淆矩阵仅在以下情况下才是正确的

  1. 数据中有尽可能多的正面和负面案例
  2. 我们使用随机分类器分配正类和负类的概率均为 0.5

所以你为一个非常特殊的数据集推导出一个非常特殊的随机分类器的混淆矩阵。正如您所指出的,这个非常特殊的随机分类器确实只是 ROC 图中的一个点。为了获得整个 ROC 曲线,我们必须改变分配正类的概率,从 0 到 1。

所以在效果上,ROC 曲线是对无限多分类器性能的图形评估!

这些具有不同概率的随机分类器中的每一个都将具有不同的预期混淆矩阵。


推导:在这里,我在具有任意类不平衡的数据集上推导出随机分类器的 AUC。

假设有一个分数x阳性病例和一小部分1x负例,并且我们的分类器包括随机分配具有概率的正类ρ和有概率的负类1ρ. 随机分类器的混淆矩阵将具有以下预期比例

TP=ρxFP=ρ(1x)FN=(1ρ)xTN=(1ρ)(1x)

然后我们计算随机分类器的真阳性率(灵敏度)和假阳性率(1-特异性)

TPR=TPTP+FN=ρxρx+(1ρ)x=ρFPR=FPTN+FP=ρ(1x)ρ(1x)+(1ρ)(1x)=ρ

如您所见,TPR 和 TFR 不依赖于班级比例x,这意味着 ROC-AUC 也将独立于x. 此外,TPR=FPR,这意味着 ROC 曲线看起来像从 (0,0) 到 (1,1) 的直线。现在我们将 AUC 计算为 TPR 下面积的 0 和 1 之间的积分,作为 FPR 的函数,因为我们改变了阈值ρ.

AUC=01ρdρ=ρ22|01=1/2

因此,无论类别比例如何,随机分类器的 ROC 曲线下面积都是 0.5。

几个定义:

  • 真阳性率 (TPR):阳性被标记为阳性的概率。

  • 假阳性率 (FPR):阴性被标记为阳性的概率

ROC曲线是通过改变分类器输出分数的阈值(高于该阈值为正,低于该阈值为负),计算并绘制真阳性率(y轴)和假阳性率( x 轴)为每个阈值。

“随机”分类器将从 0 到 1 之间的均匀分布中采样的分数分配给每个实例。如果选择的阈值是“x”,那么任何得分高于“x”的实例都是正数。对于每个实例(无论它实际上是正面还是负面),被标记为正面的概率是 1-x。由于 x 在 1 和 0 之间变化,TPR 和 FPR 都在 0 和 1 之间变化(在所有点上都相等)。因此得到的线是 x=y(对角线),这条线下的面积可以计算为 0.5。

Gino_JrDataScientist答案的更简单证明:-)

假设您的分类器是带有参数的伯努利随机变量ρ,并基于这些定义,我们将有:

TPR=TPP=ρPP=ρFPR=FPN=ρNN=ρAUC=01ρdρ=12ρ2|01=12