数据平衡——在特征选择/工程之前或之后

数据挖掘 机器学习 特征选择 特征工程 阶级失衡
2022-03-10 19:44:02

在创建预测模型的不同阶段中,我应该什么时候平衡数据?

应该是在我对数据进行任何操作并创建新特征之前,还是在我已经根据真实数据选择最重要的特征之后?

1个回答

平衡是使用数据集中要考虑的样本(添加/减少行)。特征选择和特征工程正在删除和添加有关每个样本的信息(添加/删除列)。

因此,您可以自由选择如何组合它们。很多时候,顺序并不重要。

但是,如果您正在对特征进行归一化,它们将针对数据集进行归一化,并且您可能会在平衡前后得到不同的结果。特征可能在平衡后改变其重要性,影响特征选择。

一般来说,如果你在一个数据集上建模,最好让特征工程适应它,所以先平衡,然后再做特征工程,除非你有理由不这样做。