我正在开发一个具有高度不平衡数据集(0.7% Minority 类)的模型。为了弥补不平衡,我打算使用不平衡学习库中的算法进行过采样。我有一个工作流程,我想分享并就我是否朝着正确的方向前进,或者我错过了什么。
- 拆分训练/测试/验证
- 为 GridSearch 设置管道并优化超参数(管道只会对训练折叠进行过采样)
- 评分指标将是 AUC,因为此时训练集是平衡的
- 由于模型是在平衡数据集上训练的,它可能会非常保守并且预测很多误报
- 考虑到上述情况,模型将被校准以具有更准确的概率(CalibratedClassifierCV)
- 在验证集上查看具有校准概率阈值的精度/召回曲线并确定最佳点
这个过程听起来合理吗?将不胜感激任何反馈/建议