大多数现实世界的数据集都具有缺失值的特征。用适当的值(例如平均值)替换缺失值被认为是特征工程中的一个很好的步骤。有时我们还会在将特征列用于训练模型之前对其进行标准化/规范化。
在建模之前,我们还将数据集拆分为训练集和测试集。
我的第一个问题是我们如何在这个拆分的数据集中进行特征工程?
我们是使用未分割特征的全局平均值来替换训练和测试集中这些特征的缺失值,还是应该使用这些集合的局部平均值?
像上面的问题一样,我们如何对训练、测试数据集进行标准化?
最后一个但很重要的问题,在制作中,我们通常一次获得一个特征值(想想一行特征),我们如何对这些数据行进行特征工程?