调整命中后的预测概率

数据挖掘 可能性 阶级失衡 采样 打击 概率校准
2022-03-06 07:52:06

我有一个不平衡的数据集,我使用 smote 对少数类进行过采样,对多数类进行欠采样。现在,我想使用模型的 predict_proba 检查测试 AUC。

我有两个问题: 1. 如果我比较 AUC,我是否必须更正概率?2.我该如何纠正它(欠采样和过采样的组合!)

1个回答
  1. 不,对概率的任何调整都可能是单调的,因此预测的排名顺序将是相同的,因此 AUC 将是相同的。

  2. 参见,例如,https://datascience.stackexchange.com/a/58899/55122

另请参阅更复杂的“概率校准”技术。

此外,如果您在 smote+undersampling 后看到更好的结果,并且可以分享您的数据和工作,我会非常感兴趣。我还没有看到原始数据集的训练效果不佳(使用适当的阈值)的示例。