我如何解释给定的分类报告?

数据挖掘 分类 scikit-学习 随机森林 评估
2022-02-11 03:12:54

给定的分类报告是通过对测试数据运行随机森林二元分类器获得的。训练数据中存在巨大的类不平衡。我如何解释给定的分类报告显示一个特定标签的非常高的值?

            precision    recall  f1-score   support

      0       0.98      1.00      0.99     35050
      1       0.98      0.72      0.83      1982
  total       0.98      0.98      0.98     37032
1个回答

精度是该类别的预测为真的比例。因此,每个类别的 98% 的预测实际上属于预测类别,而 2% 实际上属于相反类别。召回率是被识别为真阳性的比例。这意味着您的模型正确识别了 100% 的 0 类,但只有 72% 的 1 类。

F1-Score是两者的一种平均;这是试图提供模型性能的统一数字,但我个人认为它不如单独的数字有用。它是通过公式计算的2 x ((precision x recall) / (precision + recall))

维基百科关于这些指标的页面非常全面:

https://en.wikipedia.org/wiki/Precision_and_recall
https://en.wikipedia.org/wiki/F1_score