我正在做数据预处理,然后在我的数据上构建一个 Convonets。
我的问题是:假设我有一个包含 100 张图像的总数据集,我正在计算 100 张图像中每一张的平均值,然后从每张图像中减去它,然后将其分成训练集和验证集,我也这样做在给定测试集上处理的步骤,但根据此链接,这似乎不是正确的方法:http: //cs231n.github.io/neural-networks-2/#datapre
”常见的陷阱。关于预处理的重要一点是,任何预处理统计信息(例如数据均值)只能在训练数据上计算,然后应用于验证/测试数据。例如计算均值并从中减去整个数据集中的每张图像,然后将数据拆分为训练/验证/测试分割是错误的。相反,必须仅在训练数据上计算平均值,然后从所有分割(训练/验证/测试)中平均减去。 "
我猜作者的意思是,不要计算平均值并在每个图像中减去它,而是计算整个图像集的平均值(即(image1 + ... + image100)/100)并将平均值减去每个图像。
不是很明白,谁能解释一下?并且还可能解释为什么我做错了(如果确实错了)。