在创建预测模型的不同阶段中,我应该什么时候平衡数据?
应该是在我对数据进行任何操作并创建新特征之前,还是在我已经根据真实数据选择最重要的特征之后?
在创建预测模型的不同阶段中,我应该什么时候平衡数据?
应该是在我对数据进行任何操作并创建新特征之前,还是在我已经根据真实数据选择最重要的特征之后?
平衡是使用数据集中要考虑的样本(添加/减少行)。特征选择和特征工程正在删除和添加有关每个样本的信息(添加/删除列)。
因此,您可以自由选择如何组合它们。很多时候,顺序并不重要。
但是,如果您正在对特征进行归一化,它们将针对数据集进行归一化,并且您可能会在平衡前后得到不同的结果。特征可能在平衡后改变其重要性,影响特征选择。
一般来说,如果你在一个数据集上建模,最好让特征工程适应它,所以先平衡,然后再做特征工程,除非你有理由不这样做。