如何解释不平衡测试集的 PR 和 ROC 曲线

数据挖掘 分类 阶级失衡 评估 绘图 公制
2022-02-28 05:57:49

我在一个数据集上训练了一个神经网络,测试集非常不平衡,正例和负例之间的比率是 1:25000。所有正例都被正确预测,而正确预测的负例元素占总负例的 99%。

PR 和 ROC 曲线图如下:

从这些曲线可以推断出什么?这些是我第一次使用分类器,我很困惑。我认为精度总是很低,因为被错误预测为正的负数具有分类器分配的高分(接近 1)。ROC 相反,我认为这很高,因为所有正例都被正确预测。以上是我的推测,如有错误请指正。

2个回答

对于二分类问题和高度不平衡的数据,

  1. 选择 AUC 和 f1 分数作为指标。
  2. 绘制混淆矩阵。
  3. 将数据拆分为 train:valid:test::60:20:20 或 80:10:10,并对 train 和 valid 集进行交叉验证和超参数调整。然后去测试集。
  4. 您也可以尝试引导重采样。

对于这种不平衡的数据,ROC 曲线下的面积并不能提供真正的信息。精确召回曲线下的面积更好。