Predict_proba 关于二元分类问题

数据挖掘 分类 概率校准
2022-03-04 21:00:48

我手头有一个二元分类任务,我有一群人需要分类为 1 或 0,然后使用predict_proba来估计我的预测对用于推理的样本的置信度。我的理解是大多数分类算法的predict_proba并不准确,需要进行校准有没有一种通用的方法来获得客观准确的类概率? 如果可能的话,算法名称技术和一些代码谢谢!

注意:我的课程不平衡 80/20。

1个回答

sklearn为我们提供了两种通过CalibratedClassifierCV类来校准概率分类器的方法;一种使用 Platt 缩放(Sigmoid),另一种使用等渗回归。

另一种方法是使用未实现的Venn-Abers 预测器sklearn,但是您可以在此处找到自定义实现。

对于不平衡的数据集,请确保利用分类器的class_weights参数sklearn来增加代表性不足的类的权重。