在交叉验证中,我真正想要估计的 AUC 总体参数是什么?

机器算法验证 置信区间 交叉验证 推理 奥克
2022-03-21 16:03:01

在机器学习中,AUC 通常用作算法的性能指标。由于人们对算法在应用于超出训练过程中使用的新案例时的性能感兴趣,因此使用独立的测试集或交叉验证程序。

在这两种情况下,来自它们的 AUC 旨在估计算法总体的总体性能。这意味着做出推断。因此,计算的测试/交叉验证的 AUC 被用作 AUC 总体参数的估计值,并且存在几种不同的程序来计算 AUC 置信区间(例如LeDell 等人,2015 年

我的问题听起来很理论化,但我不清楚这些 AUC 估计值和 CI 指的是哪个总体参数。我的意思是以下或更多可能性中的哪一个(假设所有案例都是由同一人群抽样的):

  • 当前训练模型用于在与训练样本一样大的新案例的无限样本中进行预测时的平均测试 AUC。
  • 当训练模型用于对所有新的总体案例进行预测时的测试 AUC
  • 由大小为 n 的无限样本训练的无限模型的平均交叉验证 AUC
1个回答

这是第一种情况,即测试集大小相同的AUC和CI的期望值。

我们可以立即排除第三种情况(无限模型),因为交叉验证仅使用经过训练的模型完成。因此,它不适用于任何其他模型。

虽然第一种和第二种情况的 AUC 相同(可能对模型的假设较弱),但如果对整个总体而不是其子集进行预测,则 CI 会更小(第二种情况)。