我有一个高度不平衡的二元分类问题,两个类可能是 95:5。我不想执行重新采样,因为数据已经很大,而且训练它只需要更多时间。(我也知道下采样)
但我的问题是,提供类权重(假设由 scikit-learn 的计算类权重计算)是否足够?还是有其他方法?
model.fit(X,y,class_weight=class_weight)
我有一个高度不平衡的二元分类问题,两个类可能是 95:5。我不想执行重新采样,因为数据已经很大,而且训练它只需要更多时间。(我也知道下采样)
但我的问题是,提供类权重(假设由 scikit-learn 的计算类权重计算)是否足够?还是有其他方法?
model.fit(X,y,class_weight=class_weight)
参考类似问题的答案,您没有任何理由从一开始就处理不平衡。95:5 的不平衡并没有那么大,我会从常规训练开始,如果这不起作用,请尝试更复杂的事情。