在处理二元分类器中的类不平衡问题时,我知道有三种方法可以解决它:过采样、欠采样和使用成本敏感的方法。
在这些方法中是否有任何指导方针、经验法则或一般策略可供选择?一个可能的答案是:当正类有超过 100 个实例时过度采样(我只是编造的)。
这种方法很难给出一般规则,它们在很大程度上依赖于手头的数据。你应该知道每种方法的优缺点,尝试所有方法,看看哪种方法在验证集上表现最好。请记住:
混合方法往往优于两者,请参阅SMOTE或ROSE。
例如,SMOTE 从少数类(从真实样本派生的综合观察)生成新信息,并且对多数类(您选择两者的最终比率)进行欠采样。
同样,您需要在数据上测试最佳解决方案。