我什么时候应该对数据进行过采样?

数据挖掘 神经网络 分类 特征选择 阶级失衡
2022-01-19 10:55:25

我正在处理多类分类器。我的数据不平衡。因此,我需要在训练之前应用采样技术(欠采样或过采样)。当我应用欠采样时,lossval_loss,以及accval_acc表现出很好的拟合。在这种情况下,是否还需要对数据进行过采样?我应该期待什么结果?

1个回答

我会考虑重新采样数据的唯一情况是需要提高特定类的召回率。因此,目标是强制分类器更频繁地预测此类,即使这通常意味着总体上会降低性能。

重采样是一种简单的方法,但很少是最佳方法。一般来说,我首先会分析分类器产生的错误,可能会考虑替代设计和/或特征工程。