我手头有一个二元分类任务,我有一群人需要分类为 1 或 0,然后使用predict_proba来估计我的预测对用于推理的样本的置信度。我的理解是大多数分类算法的predict_proba并不准确,需要进行校准。有没有一种通用的方法来获得客观准确的类概率? 如果可能的话,算法名称、技术和一些代码。谢谢!
注意:我的课程不平衡 80/20。
我手头有一个二元分类任务,我有一群人需要分类为 1 或 0,然后使用predict_proba来估计我的预测对用于推理的样本的置信度。我的理解是大多数分类算法的predict_proba并不准确,需要进行校准。有没有一种通用的方法来获得客观准确的类概率? 如果可能的话,算法名称、技术和一些代码。谢谢!
注意:我的课程不平衡 80/20。
sklearn为我们提供了两种通过CalibratedClassifierCV类来校准概率分类器的方法;一种使用 Platt 缩放(Sigmoid),另一种使用等渗回归。
另一种方法是使用未实现的Venn-Abers 预测器sklearn,但是您可以在此处找到自定义实现。
对于不平衡的数据集,请确保利用分类器的class_weights参数sklearn来增加代表性不足的类的权重。