我正在尝试一些用于二进制分类问题的模型。为了评估每个模型的性能,我使用了 10 次重复 10 倍交叉验证来计算 PR AUC(Precision-Recall 曲线下的面积)和许多其他指标。
我的教授希望我报告这些指标的置信区间以及模型 X 优于模型 Y 的结论的 p 值。这是统计机器翻译 (SMT) 实验(他的背景)中的标准做法,他们使用引导来计算这些(我的实验与 NLP 相关,但不是 SMT)。由于我使用重复的交叉验证来估计每个模型的性能,我不确定如何计算置信区间或 p 值。
这个问题类似,他们建议引导重新采样的平均值,但我不确定这意味着什么。这是正确的方法吗?如果是这样,任何人都可以更详细地解释如何做到这一点?