数据挖掘 - 使用多数类预测少数类 - 吾爱随笔录

假设我想训练一个二元模型来预测谁会购买个人贷款的概率，并且在数据集中只有 5% 的示例是标记为购买了个人贷款的人。因此，在这种情况下，也许我可以利用下采样或上采样来平衡数据集，但如果我的数据集不够大，可能会留下很少的示例，或者上采样不合适。然后假设我决定使用整个数据集，我将其划分为训练集和测试集，以预测谁不会购买个人贷款的概率。考虑到它是一个二元模型，从 1 中减去该模型的输出概率并使用此结果预测谁将购买个人贷款是否有意义？