如何解释不平衡测试集的 PR 和 ROC 曲线
数据挖掘
分类
阶级失衡
评估
绘图
公制
2022-02-28 05:57:49
2个回答
对于二分类问题和高度不平衡的数据,
- 选择 AUC 和 f1 分数作为指标。
- 绘制混淆矩阵。
- 将数据拆分为 train:valid:test::60:20:20 或 80:10:10,并对 train 和 valid 集进行交叉验证和超参数调整。然后去测试集。
- 您也可以尝试引导重采样。
对于这种不平衡的数据,ROC 曲线下的面积并不能提供真正的信息。精确召回曲线下的面积更好。
其它你可能感兴趣的问题
