我是否同时转换所有数据或折叠(如果应用了 CV)?例如
(allData - mean(allData)) / sd(allData)
我是否分别转换训练集和测试集?例如
(trainData - mean(trainData)) / sd(trainData)
(testData - mean(testData)) / sd(testData)
或者我是否转换训练集并在测试集上使用计算?例如
(trainData - mean(trainData)) / sd(trainData)
(testData - mean(trainData)) / sd(trainData)
我相信3是正确的方法。如果 3 是正确的,我是否必须担心平均值不为 0 或范围不在 [0; 1] 或 [-1; 1](标准化)测试集?