我有一个二元分类模型,我在其中预测仅占整个训练数据集 10% 的正类。这个不平衡数据集的问题是我的模型预测正类的概率不超过 0.6。为什么会这样?
我知道这是由于数据集不平衡造成的,并且有一些答案建议如何处理不平衡的数据集。
我之前处理过不平衡的数据集,从未遇到过一个类的概率不超过 0.6 的情况。
我有一个二元分类模型,我在其中预测仅占整个训练数据集 10% 的正类。这个不平衡数据集的问题是我的模型预测正类的概率不超过 0.6。为什么会这样?
我知道这是由于数据集不平衡造成的,并且有一些答案建议如何处理不平衡的数据集。
我之前处理过不平衡的数据集,从未遇到过一个类的概率不超过 0.6 的情况。
除了概率之外,您可以考虑的是在对概率 应用阈值后得到的混淆矩阵。例如,如果您的阈值是 0.5,并且您的模型可以完美地分类您的验证示例,那么您应该没有问题。
如果您将平均对数损失作为您的训练指标,并且正负类的权重相同,那么您的平均概率值将移向训练集中的优势侧。
总而言之,概率值本身可能并不令人担忧。更多地关注不平衡的数据特定指标,例如精度、召回(灵敏度)特异性、F1 分数或ROC 曲线下面积。
您的模型无法区分好的正面和负面类别,这不仅是因为数据分布,而且您的两个类别中的预测变量都没有那么有效地分离相同的类别。
我建议在此基础上进行一些特征工程,可能删除一些可以提高概率。
如果您能够共享数据集,那么我也可以看看它。
无论如何都要分享你的结果。