我有一个不平衡的数据集,我使用 smote 对少数类进行过采样,对多数类进行欠采样。现在,我想使用模型的 predict_proba 检查测试 AUC。
我有两个问题: 1. 如果我比较 AUC,我是否必须更正概率?2.我该如何纠正它(欠采样和过采样的组合!)
我有一个不平衡的数据集,我使用 smote 对少数类进行过采样,对多数类进行欠采样。现在,我想使用模型的 predict_proba 检查测试 AUC。
我有两个问题: 1. 如果我比较 AUC,我是否必须更正概率?2.我该如何纠正它(欠采样和过采样的组合!)
不,对概率的任何调整都可能是单调的,因此预测的排名顺序将是相同的,因此 AUC 将是相同的。
另请参阅更复杂的“概率校准”技术。
此外,如果您在 smote+undersampling 后看到更好的结果,并且可以分享您的数据和工作,我会非常感兴趣。我还没有看到原始数据集的训练效果不佳(使用适当的阈值)的示例。