我的任务是根据一个人面部的 rgb 图像来估计一个人的年龄。为此,我正在使用 ResNet-50。在第一阶段,我在一个名为 WIKI-IMDB 的数据集上训练了我的网络(在通过水平翻转过滤和扩展我的数据集之后,它包含大约 300k 图像),我用预训练的 ResNet 的权重初始化了网络的权重。在 ImageNet 上训练的 50 个网络。在 WIKI-IMDB 数据集上进行训练时,我计算了训练集输入的每个通道 (RGB) 的平均值,并从批次中的每个示例中减去它(我也使用相同的平均值从我的验证集中减去它)用于提前停止)。在我完成了在 WIKI-IMDB 上的网络训练后,我想在另一个数据集集上对其进行测试,这是该任务的基准。我的新数据集 m 测试称为 CACD,包含约 160k 图像,我将其划分为训练集和测试集。我需要在 CACD 训练集上微调我的网络,最后报告我在 CACD 测试集上使用的指标。
我的问题是:在学习新的 CACD 训练集时,我应该从批次中的每个示例中减去 CACD 训练集的平均值,还是应该继续减去 WIKI-IMDB 训练集的平均值?如果我需要减去 CACD 训练集的新平均值,我是否应该在评估 CACD 测试集时也使用该平均值?