通过引导程序进行内部验证:呈现什么 ROC 曲线?

机器算法验证 引导程序 验证 回归策略
2022-03-23 10:10:54

我正在使用引导方法对使用标准逻辑回归或弹性网络构建的多元模型进行内部验证。

我使用的程序如下:

1)使用整个数据集建立模型,得到预测值,计算AUC(AUC_ap,明显的)

2) 生成从原始数据集派生的 100-500 个引导样本

3) 对于每个 bootstrap 样本,按照与 #1 中相同的程序,获得 i) 当前 bootstrap 样本和 ii) 原始数据集的预测值和 auc

4)计算100-500个引导样本中的每一个的i)和ii)(在#3中)之间的差异,并取平均值->“乐观”

5)计算乐观校正AUC:AUC_ap - 乐观

我的问题是什么 ROC 曲线最适合在论文中呈现?例如,在步骤#1 中推导出的 ROC 是一种选择,但显然是乐观的。或者,我尝试使用 R 包 ROCR 生成“平均 ROC”,基于步骤 #3 (ii) 中得出的 ROC 曲线。但是,我认为 [这些 ROC 曲线的平均值] 的 AUC 不等于在步骤 #5 中获得的值。

非常感谢任何输入!-M

3个回答

您正在假设 ROC 曲线提供信息并导致良好的决策。两者都不是真的。我还没有看到提供有用见解的 ROC 曲线。它还具有很大的墨水:信息比。 -index(一致性概率)是预测辨别力的一个很好的衡量标准如果不是 AUROC,我会更喜欢它。无需呈现 ROC 曲线。c

除了信息产量低之外,ROC 曲线还邀请分析师在预测概率上寻找切点,这是一个决策灾难。

你提出了一个很好的问题,我想了很长时间。也许这取决于您的结果来决定如何报告。对于大多数情况,无论是否过度乐观,作者都希望报告原始/表观 AUC(即问题中的第 1 步),然后报告引导乐观校正的 AUC(即第 5 步)。见参考: http: //journals.plos.org/plosone/article ?id=10.1371/journal.pone.0125026

在某些 AUC 似乎并不过分乐观的情况下,作者会直接报告修正后的 AUC。

至于步骤#3(ii)中的AUC,很少被报道,你最好忽略它。

您的问题有很多细节遗漏 - 但是在我看来,您并不是在谈论测试集如果您打算展示您的模型的通用性(这是 ROC 曲线的主要用例),您应该展示从测试集而不是验证集或内部验证集派生的 ROC。或来自多个测试集的平均 ROC。因此,找到一种方法来生成测试集并从那里获取它是很重要的。

学习 ROC 分析(以及如何创建平均 ROC 曲线)的一个很好的参考是:

Fawcett, T. (2006)。ROC 分析简介。模式识别快报,27(8),861-874。 http://www.sciencedirect.com/science/article/pii/S016786550500303X