类不平衡策略

数据挖掘 机器学习 分类 阶级失衡
2022-03-05 14:03:31

在处理二元分类器中的类不平衡问题时,我知道有三种方法可以解决它:过采样、欠采样和使用成本敏感的方法。

在这些方法中是否有任何指导方针、经验法则或一般策略可供选择?一个可能的答案是:当正类有超过 100 个实例时过度采样(我只是编造的)。

1个回答

这种方法很难给出一般规则,它们在很大程度上依赖于手头的数据。你应该知道每种方法的优缺点,尝试所有方法,看看哪种方法在验证集上表现最好。请记住:

  • 对频率较低的类进行过度采样会导致数据出现大量重复,因为您只是复制了观察结果
  • 欠采样可能很糟糕,因为您在最频繁的类中丢弃了信息,因此您可能会失去性能

混合方法往往优于两者,请参阅SMOTEROSE

例如,SMOTE 从少数类(从真实样本派生的综合观察)生成新信息,并且对多数类(您选择两者的最终比率)进行欠采样。

同样,您需要在数据上测试最佳解决方案。