我很清楚,为了避免信息泄露,建议在训练数据集上拟合任何转换(例如,标准化或基于中值的插补)并将其应用于测试数据集。然而。如果数据是 iid 并且训练/测试拆分确实是随机的,我不清楚在训练/测试拆分之前将这些转换应用于整个数据集的风险是什么?
例如,如果原始数据集具有某些统计特征(例如,平均值、中位数和标准差),那么我会期望随机数据溢出,生成具有相同统计特征的训练和测试数据集。因此,标准化整个数据集然后拆分应该产生与拆分数据集、基于训练数据库标准化和转换测试数据集相同的结果。对于基于中值的插补,也可以提出相同的论点。
我错过了什么吗?