用于比较两个或多个分类模型的一种常用方法是使用 ROC 曲线下面积 (AUC) 作为间接评估其性能的一种方式。在这种情况下,具有较大 AUC 的模型通常被解释为比具有较小 AUC 的模型表现更好。但是,根据 Vihinen,2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ),当两条曲线相互交叉时,这种比较不再有效。为什么会这样?
例如,根据下面的 ROC 曲线和 AUC,可以确定模型 A、B 和 C 的哪些内容?
用于比较两个或多个分类模型的一种常用方法是使用 ROC 曲线下面积 (AUC) 作为间接评估其性能的一种方式。在这种情况下,具有较大 AUC 的模型通常被解释为比具有较小 AUC 的模型表现更好。但是,根据 Vihinen,2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ),当两条曲线相互交叉时,这种比较不再有效。为什么会这样?
例如,根据下面的 ROC 曲线和 AUC,可以确定模型 A、B 和 C 的哪些内容?
ROC曲线可视化所有可能阈值的TPR和FPR。
如果您绘制两条 ROC 曲线“A”和“B”并且它们不相互交叉,那么您的分类器之一显然表现更好,因为对于所有可能的 FPR 值,您会获得更高的 TPR。显然中华民国下的面积也会更大。
现在,如果它们确实相互交叉,那么曲线'A'和'B' 的FPR 和 TPR 都相同。您不能再说一条 ROC 曲线表现更好,因为它现在取决于您喜欢哪种权衡。你想要高精度/低召回率还是低精度/高召回率?
示例:如果一个分类器在 FPR 为 0.2 时表现更好,但达到高召回率很重要,那么它在您不感兴趣的阈值上表现良好。
关于图表中的 ROC 曲线:您可以轻松判断“A”的性能要好得多,甚至不知道您想要实现什么。一旦紫色曲线穿过其他曲线,它就会再次穿过它们。你很可能对那个小部分不感兴趣,因为“B”和“C”的表现要好一些。
在下图中,您会看到两条 ROC 曲线,它们也相互交叉。在这里,您无法判断哪个更好,因为它们相互补充。
请注意,归根结底,您有兴趣为您的分类选择一个阈值,而AUC只为您提供对模型总体性能的估计。