分类 - ROC 曲线具有非常多的假阴性

数据挖掘 分类
2022-02-16 10:31:07

作为天蓝色机器学习分类实验的结果,我有以下曲线。

在此处输入图像描述

这显然显示了很多假阴性,但我很难解释这一点,因为我的数据有大量的阴性和少量的阳性(我正在做一个二进制分类)。

我将其解释为我的数据几乎完全由正值组成,其中大多数被确定为负值。我相信图表上的假阴性实际上是真阴性。我是否正确阅读图表?

1个回答

请注意如何precision非常高,而所有其他指标都非常低。现在看看你的问题的类平衡:

TP+FN=ActualPositive=31,245
TN+FP=ActualNegative=508

因此,您的数据严重偏向正面。为了得到一个效果不佳的模型,我认为您可能已经为模型提供了precision作为交叉验证指标的模型。在这种情况下,这precision是一个非常糟糕的交叉验证指标,因为它会导致差accuracy和差recallaccuracy也不是一个好的指标,因为您的模型可以将所有内容分类为正面并获得以下准确度:

AC=31,24531,763=.984

对于此类严重偏向一个值的情况,我建议使用F1-score作为您的交叉验证指标。F1-score是的harmonic mean因此precision很好recall地平衡了这两个因素。维基百科实际上在这里对分类指标有一个非常好的解释,如果您甚至需要了解多类指标和混淆矩阵这篇论文就是一流的。

希望这可以帮助!