在机器学习中,AUC 通常用作算法的性能指标。由于人们对算法在应用于超出训练过程中使用的新案例时的性能感兴趣,因此使用独立的测试集或交叉验证程序。
在这两种情况下,来自它们的 AUC 旨在估计算法总体的总体性能。这意味着做出推断。因此,计算的测试/交叉验证的 AUC 被用作 AUC 总体参数的估计值,并且存在几种不同的程序来计算 AUC 置信区间(例如LeDell 等人,2015 年)
我的问题听起来很理论化,但我不清楚这些 AUC 估计值和 CI 指的是哪个总体参数。我的意思是以下或更多可能性中的哪一个(假设所有案例都是由同一人群抽样的):
- 当前训练模型用于在与训练样本一样大的新案例的无限样本中进行预测时的平均测试 AUC。
- 当训练模型用于对所有新的总体案例进行预测时的测试 AUC
- 由大小为 n 的无限样本训练的无限模型的平均交叉验证 AUC