数据挖掘 - 模型预测不平衡训练数据集中正类的概率接近 50 - 吾爱随笔录

数据挖掘分类阶级失衡

2022-02-16 19:38:17

我有一个二元分类模型，我在其中预测仅占整个训练数据集 10% 的正类。这个不平衡数据集的问题是我的模型预测正类的概率不超过 0.6。为什么会这样？

我知道这是由于数据集不平衡造成的，并且有一些答案建议如何处理不平衡的数据集。

我之前处理过不平衡的数据集，从未遇到过一个类的概率不超过 0.6 的情况。

2个回答

除了概率之外，您可以考虑的是在对概率应用阈值后得到的混淆矩阵。例如，如果您的阈值是 0.5，并且您的模型可以完美地分类您的验证示例，那么您应该没有问题。

如果您将平均对数损失作为您的训练指标，并且正负类的权重相同，那么您的平均概率值将移向训练集中的优势侧。

总而言之，概率值本身可能并不令人担忧。更多地关注不平衡的数据特定指标，例如精度、召回（灵敏度）特异性、F1 分数或ROC 曲线下面积。

您的模型无法区分好的正面和负面类别，这不仅是因为数据分布，而且您的两个类别中的预测变量都没有那么有效地分离相同的类别。

我建议在此基础上进行一些特征工程，可能删除一些可以提高概率。

如果您能够共享数据集，那么我也可以看看它。

无论如何都要分享你的结果。

其它你可能感兴趣的问题