在对训练数据进行下采样时,我们应该对验证数据进行下采样还是保持验证拆分原样?

数据挖掘 训练 阶级失衡
2022-03-04 11:03:36

我正在处理班级不平衡问题。在这种情况下,我对训练集中的多数类标签进行了下采样。

在训练、验证和测试分割中,训练分割中的多数类被下采样,测试分割保持原样。但是,是否应该根据训练集对验证拆分进行下采样,还是应该保持原样?

这是因为验证集控制着训练过程。

1个回答

我建议不要对验证集进行下采样。最后,您关心具有倾斜类分布的测试集的性能。因此,我认为您的验证集(用于超参数选择、提前停止等)应该具有相同的分布。

您是否考虑过对少数类进行上采样?通过下采样,您会丢失训练数据,这些数据可能包含有价值的信息,因此可能会损害学习过程。