关于高度不平衡的验证数据集的精度和召回率

机器算法验证 机器学习 分类 数据挖掘 精确召回
2022-04-01 05:21:47

可能的重复:
优化类别不平衡下的 Precision-Recall 曲线

我建立了一个分类模型并针对验证数据集对其进行了测试。正集由 86 个案例组成,负集由 1256 个案例组成。混淆矩阵如下

                     True positive  True negative   precision
   Predict positive    55               338          13.99%
   Predict negative    31               918          96.73%
           Recall      63.95%       73.09%  

这个分类器的精度和召回率不好,尤其是正精度。然而,负面案例远多于正面案例。我不太确定,对于这种不平衡的数据,我们还能像往常一样使用precision和recall作为性能评估吗?

3个回答

我从事生物医学文本分类工作,这种情况一直在发生。你说得完全正确——精确度和召回率对于高度偏斜的数据来说并不是所有的信息。我倾向于使用 AUC 作为我的性能指标,因为它对类分布不敏感。

您可以引入与您的应用程序一致的成本函数,其中包含 TP、FP、TN、FN 的值,并为此优化您的预测器。

我认为当你说“无效”时你需要更清楚你的意思:从他们总结列联表的意义上说,它们是有效的,但在数据高度不平衡的情况下它们是有偏见的。您可以查看的另一种衡量标准是真阳性率和(1 - 假阳性率)的平均值,它在类平衡中往往更稳定。

不过,你应该小心你想要做什么:正类的精度是一个有用的指标,因为优化不经常出现的类的召回/精度权衡通常是分类器实际应用的目标。