使用多数类预测少数类

数据挖掘 预言 阶级失衡 采样 二进制
2022-03-02 18:17:37

假设我想训练一个二元模型来预测谁会购买个人贷款的概率,并且在数据集中只有 5% 的示例是标记为购买了个人贷款的人。因此,在这种情况下,也许我可以利用下采样或上采样来平衡数据集,但如果我的数据集不够大,可能会留下很少的示例,或者上采样不合适。然后假设我决定使用整个数据集,我将其划分为训练集和测试集,以预测谁不会购买个人贷款的概率。考虑到它是一个二元模型,从 1 中减去该模型的输出概率并使用此结果预测谁将购买个人贷款是否有意义?

1个回答

是的,这是正确的,但是假设您遵循完全相同的方法,您最终将获得完全相同的性能,因此没有优势。

请记住,类不平衡的问题不是一个类比另一个类更难识别,而是更难正确区分这两个类。

[编辑] 使用一类分类时,情况就不同了。我不确定在这种情况下是否有意义,但也许值得一试。