我使用 100 次 10 倍重复交叉验证来评估向现有模型添加生物标志物的 ROC-AUC 性能改进: Model_A : pred1 + pred2 Model_B :pred1 + pred2 + pred3
我之前看到过使用 Wilcoxon 秩检验来比较每个折叠之间的 AUC 的建议。 在交叉验证中平均 ROC 曲线超过折叠
我应该从中提取中位数 p 值吗?是否可以使用 Caret 包中的 diff.resamples 函数并使用 Wilcoxin 等级而不是默认的 t 检验?如果只看 AUC,是否需要 Bonferonni 校正? https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/diff.resamples
最后,关于使用 DeLong 或似然比检验的任何想法。反而?