为什么要调整类权重而不是简单地找到最佳阈值?

数据挖掘 机器学习 不平衡学习
2022-03-12 09:41:49

在二元监督分类中,类 1 和 0 在训练中具有不同数量的样本,找到关于调整类权重、对不平衡数据集进行过采样和欠采样的教程是很常见的。在两个类都有足够样本的情况下(例如,不是异常检测),如果最终您无论如何都必须调整阈值,为什么还要调整类权重或平衡训练数据?

1个回答

如果这两个类都有足够的样本,我认为这没有多大意义。我参加过非常不平衡的数据集的 kaggle 比赛,例如:

并且没有一个顶级解决方案使用任何类型的不平衡处理,因为这两个类别都有足够的样本。

我自己也做过,几个与欺诈相关的模型具有高度的不平衡性,并且使用无不平衡解决方案证明比所有其他选项更好。