我正在使用数据集上的逻辑回归分类器执行 k 折叠交叉验证,并计算每个折叠的 ROC 曲线和 AUC。我想要的输出是一条具有相应 AUC 值的 ROC 曲线。
一种方法(取自此处)是采用所有折叠的平均假阳性率 (fpr) 和真阳性率 (tpr),并使用平均 tpr 和 fpr 值绘制整体 ROC 曲线。然后使用平均 ROC 曲线计算 AUC。但是,当数据集较小时,此方法效果不佳。没有冗长的解释,我的分类是一种诊断,它使用许多样本进行一次诊断,因此将每倍的预测减少到 3-5 左右。
另一种方法是保存每个折叠中每个预测的概率,然后在 k-Fold CV 之后构建 ROC 曲线,并使用该 ROC 曲线计算 AUC。然而,这意味着将在不同数据集上训练的各种模型组合成一条 ROC 曲线。不知道这算不算问题?
将 ROC 和 AUC 与 k-Fold Cross 验证结合使用时,模型评估报告的行业标准是什么?
- 随意编辑我的问题。