如何计算交叉验证估计的置信区间?
对于流行病学论文,我们使用 cat。并继续。NRI、IDI 和 C 指数差异,用于比较两个 Cox 模型。审稿人建议只显示交叉验证的估计值及其 95% 的置信区间。
我的想法包括获取 CV 重采样的适当分位数,计算这些重采样的 SE 并构建 Wald 区间,或引导重采样的均值或中位数的 CI。但不知何故,这些似乎都是假的。
如何计算交叉验证估计的置信区间?
对于流行病学论文,我们使用 cat。并继续。NRI、IDI 和 C 指数差异,用于比较两个 Cox 模型。审稿人建议只显示交叉验证的估计值及其 95% 的置信区间。
我的想法包括获取 CV 重采样的适当分位数,计算这些重采样的 SE 并构建 Wald 区间,或引导重采样的均值或中位数的 CI。但不知何故,这些似乎都是假的。
对于我们关于预测贷款违约的信用风险论文,一位审阅者还建议我们为交叉验证估计生成置信区间,特别是建议对重采样均值进行引导。
Bootstrapped CIs 是为风险排序测量生成的,包括 AUC、H测量和 Kolmogorov-Smirnov (KS) 统计量。它们用于比较两种生存模型的辨别性能 - Mixture Cure、Cox 和逻辑回归。
了解此类 CI 的其他方法会很有趣。
Tong, ENC, Mues, C. & Thomas, LC (2012) 信用评分中的混合治疗模型:如果借款人违约以及何时违约。欧洲运筹学杂志,218,(1),132-139。
如果您不能假设数据拆分的独立性(在许多情况下您不能),这里有一种方法可以计算围绕您的错误的“有效”置信区间。它最近由斯坦福 (2021) 发布,因此仍然没有 python 包,但他们确实创建了一个 R 包。
我对这个话题很感兴趣,所以我写了一篇技术含量较低的文章,但这篇论文讲述了完整的故事。
论文信息(以防链接失效):
最近,我发表了一篇论文,报告了逻辑回归模型的许多性能统计数据(准确性、敏感性、特异性等)的平均值和 95% 置信区间。我们使用了 10 次重复 10 折交叉验证,每折的测试集结果为每个性能统计量生成 100 个值。如果您可以合理地假设这些值是独立的,则可以根据这些值计算 95% 的置信区间。如果你不能假设独立,那么上面讨论的引导可能更合适。