ROC AUC评分解读

数据挖掘 随机森林 支持向量机 逻辑回归 模型选择
2022-03-04 05:57:09

我试图评估 6 个模型,在绘制之后,我得到了: 在此处输入图像描述

所以我想知道,如果这些结果是“正确的”?

提前致谢。

2个回答

您是否评估了训练集中的结果?还是在测试集中?

这些结果非常好!怀疑很好。

我认为您仅在训练集中尝试了您的结果,因此您的结果反映了对数据的过度拟合,这意味着您的模型学习了该集合,它没有被泛化(这意味着它不适用于您将来可能遇到的任何其他数据集,这是没有用的)。

为了比较方法之间的 ROC,您应该对它们进行建模,小心过度拟合,并在测试数据集(您以前从未知道的数据集,可以通过对数据集进行分区获得)上尝试它们。

这样,您的比较不是衡量哪个模型通过记忆您的数据来学习。

我不确定 AUC 是否是用于比较这些模型的正确值。看看这个问题的更多细节。

在任何情况下,您的训练数据的 AUC 都不是非常有用的信息,并且评估您的模型在训练集上的性能并不足以确定您的模型可能有多“正确”,无论如何你是怎么做的。这种比较最早可以在测试集上进行,更好的是,完全样本外的数据(因为最终的模型训练通常包括对完整数据集的重新训练)。

最后,模型性能(在应用中)将通过为您的预测变量(以及相应的真阳性/假阳性权衡)选择一个特定的切点来定义,而不是通过查看模型在许多可能的切点之间辨别结果的整体能力点。总体 AUC 可能仍然很有趣,但应用模型性能是一个更精确的问题(这个问题有一些很好的信息)。