在执行重复的 k 折交叉验证之前对数据进行归一化(具有零均值和统一标准偏差)是否有任何负面后果,例如过度拟合?
注意:这是针对 #cases > total #features 的情况
我正在使用对数转换转换我的一些数据,然后如上所述对所有数据进行规范化。然后我正在执行特征选择。接下来,我将所选特征和归一化数据应用于重复的 10 倍交叉验证,以尝试估计泛化分类器的性能,并担心使用所有数据进行归一化可能不合适。我是否应该使用从该折叠的训练数据中获得的归一化数据对每个折叠的测试数据进行归一化?
任何意见都感激不尽!如果这个问题看起来很明显,请道歉。
编辑: 在对此进行测试时(根据以下建议),我发现与 CV 中的归一化相比,CV 之前的归一化在性能方面没有太大差异。