ROC曲线下面积统计

机器算法验证 置信区间 计算统计 奥克
2022-03-20 09:51:51

我有一个关于 AUC 统计评估的问题。DeLong 等人在他们的论文 ( http://www.jstor.org/stable/2531595 ) 中。描述一种评估 AUC 曲线的方法。(另一个很好的解释可以在 Altman 等人的“充满信心的统计:置信区间和统计指南”一书中找到。)。

据我了解,我们计算AUC和标准差σ的核矩阵。假设正态分布N(AUC,σ)可以计算置信区间。

我的问题是关于正态性假设:

  1. AUC通常位于区间[0,1]但正态分布的区间是(Inf,Inf). 这个问题真的可以忽略不计吗?(这个问题例如pROC通过将 CI 限制为[0,1])

  2. Beta分布在区间上定义[0,1]并具有形状参数αβ. 我们可以根据我们能够为 AUC 做的数据来估计它们吗?

举个例子:给定一个c(T,F,F,F,T,F,F,T,F,F)向量AUC=0.619σ=0.237这导致 95% CI(0.156,1.083).

library(pROC)
temp.in <- c(T,F,F,F,T,F,F,T,F,F)
pROC::auc(pROC::roc(controls=which(temp.in), cases=which(!temp.in)))
pROC::ci.auc(pROC::roc(controls=which(temp.in), cases=which(!temp.in)))

不使用正态分布,我想使用Beta分配。但是我们如何估计αβ为了Beta分配给定c(T,F,F,F,T,F,F,T,F,F)

1个回答

[1] 给出的替代方法是计算 logit AUC 的区间:

log(AUC1AUC)±ϕ1(1α2)AUCAUC(1AUC)

这样你就得到了一个不对称的区间。在您的情况下,您将获得 95% CI(0.38,0.81).

如果您经常处理高 AUC 和小样本量,您可能需要查看 [2],它表明没有一种方法可以优化计算所有 ROC 曲线的置信区间。


[1] Pepe MS,用于分类和预测的医学测试的统计评估,OUP 2003,p。107

[2] Obuchowski NA,Lieber ML,估计 ROC 面积为 1.0 时的置信范围,Acad Radiol。2002 年,第 9 (5) 页。526-30