模型预测不平衡训练数据集中正类的概率接近 50

数据挖掘 分类 阶级失衡
2022-02-16 19:38:17

我有一个二元分类模型,我在其中预测仅占整个训练数据集 10% 的正类。这个不平衡数据集的问题是我的模型预测正类的概率不超过 0.6。为什么会这样?

我知道这是由于数据集不平衡造成的,并且有一些答案建议如何处理不平衡的数据集。

我之前处理过不平衡的数据集,从未遇到过一个类的概率不超过 0.6 的情况。

2个回答

除了概率之外,您可以考虑的是在对概率 应用阈值后得到的混淆矩阵例如,如果您的阈值是 0.5,并且您的模型可以完美地分类您的验证示例,那么您应该没有问题。

如果您将平均对数损失作为您的训练指标,并且正负类的权重相同,那么您的平均概率值将移向训练集中的优势侧。

总而言之,概率值本身可能并不令人担忧更多地关注不平衡的数据特定指标,例如精度、召回(灵敏度)特异性、F1 分数或ROC 曲线下面积。

您的模型无法区分好的正面和负面类别,这不仅是因为数据分布,而且您的两个类别中的预测变量都没有那么有效地分离相同的类别。

我建议在此基础上进行一些特征工程,可能删除一些可以提高概率。

如果您能够共享数据集,那么我也可以看看它。

无论如何都要分享你的结果。