机器算法验证 - 关于在训练/有效/测试集上减去均值的问题 - 吾爱随笔录

我正在做数据预处理，然后在我的数据上构建一个 Convonets。

我的问题是：假设我有一个包含 100 张图像的总数据集，我正在计算 100 张图像中每一张的平均值，然后从每张图像中减去它，然后将其分成训练集和验证集，我也这样做在给定测试集上处理的步骤，但根据此链接，这似乎不是正确的方法：http: //cs231n.github.io/neural-networks-2/#datapre

”常见的陷阱。关于预处理的重要一点是，任何预处理统计信息（例如数据均值）只能在训练数据上计算，然后应用于验证/测试数据。例如计算均值并从中减去整个数据集中的每张图像，然后将数据拆分为训练/验证/测试分割是错误的。相反，必须仅在训练数据上计算平均值，然后从所有分割（训练/验证/测试）中平均减去。 "

我猜作者的意思是，不要计算平均值并在每个图像中减去它，而是计算整个图像集的平均值（即（image1 + ... + image100）/100）并将平均值减去每个图像。

不是很明白，谁能解释一下？并且还可能解释为什么我做错了（如果确实错了）。