机器算法验证 - 交叉验证统计的置信区间 - 吾爱随笔录

交叉验证统计的置信区间

机器算法验证置信区间交叉验证

2022-03-15 13:17:17

如何计算交叉验证估计的置信区间？

对于流行病学论文，我们使用 cat。并继续。NRI、IDI 和 C 指数差异，用于比较两个 Cox 模型。审稿人建议只显示交叉验证的估计值及其 95% 的置信区间。

我的想法包括获取 CV 重采样的适当分位数，计算这些重采样的 SE 并构建 Wald 区间，或引导重采样的均值或中位数的 CI。但不知何故，这些似乎都是假的。

3个回答

对于我们关于预测贷款违约的信用风险论文，一位审阅者还建议我们为交叉验证估计生成置信区间，特别是建议对重采样均值进行引导。

Bootstrapped CIs 是为风险排序测量生成的，包括 AUC、H测量和 Kolmogorov-Smirnov (KS) 统计量。它们用于比较两种生存模型的辨别性能 - Mixture Cure、Cox 和逻辑回归。

了解此类 CI 的其他方法会很有趣。

Tong, ENC, Mues, C. & Thomas, LC (2012) 信用评分中的混合治疗模型：如果借款人违约以及何时违约。欧洲运筹学杂志，218，（1），132-139。

如果您不能假设数据拆分的独立性（在许多情况下您不能），这里有一种方法可以计算围绕您的错误的“有效”置信区间。它最近由斯坦福 (2021) 发布，因此仍然没有 python 包，但他们确实创建了一个 R 包。

我对这个话题很感兴趣，所以我写了一篇技术含量较低的文章，但这篇论文讲述了完整的故事。

论文信息（以防链接失效）：

名称：交叉验证：它估计什么以及它做得如何？
作者：斯蒂芬·贝茨、特雷弗·哈斯蒂和罗伯特·蒂布希拉尼
年份：2021
主要结论：“我们做出了两个主要贡献。首先，我们通过二次抽样技术讨论了预测误差的点估计。我们的主要结果是预测误差的常见估计——交叉验证、引导、数据拆分和协方差惩罚——不能被视为对最终模型拟合整个数据的预测误差的估计。......其次，我们讨论交叉验证的推断，推导 CV 点估计的 MSE 的估计量，嵌套 CV。

最近，我发表了一篇论文，报告了逻辑回归模型的许多性能统计数据（准确性、敏感性、特异性等）的平均值和 95% 置信区间。我们使用了 10 次重复 10 折交叉验证，每折的测试集结果为每个性能统计量生成 100 个值。如果您可以合理地假设这些值是独立的，则可以根据这些值计算 95% 的置信区间。如果你不能假设独立，那么上面讨论的引导可能更合适。

其它你可能感兴趣的问题

上一篇使用主成分分析与对应分析下一篇SMOTE 针对多类不平衡问题引发错误