在为神经网络预处理数据时,我有一个关于数据泄漏的问题,以及数据泄漏是否真的适用于我的实例。
我有稳定转换基因组数据的方差。因为它是基因组数据,我们先验地知道,较低的数字会转化为较低水平的基因,反之亦然。在输入到神经网络之前,使用 sklearn 将数据压缩到 0 和 1 之间:
preprocessing.minmax_scale(data, feature_range=(0,1), axis=1)
由于基因水平的这种先验假设,需要在样本而不是特征之间进行 min_max 缩放(axis=1)
- 低基因需要保持低水平,反之亦然......
因此,我的问题是:训练样本是否仍然需要与测试样本分开缩放,因为这里似乎没有数据泄漏的风险?这是正确的假设吗?