当我们为训练增加数据时,我们是否也在改变数据的分布,如果它的分布不同,为什么我们用它来训练原始分布的模型?
扩充数据会改变扩充数据的分布吗?
人工智能
机器学习
深度学习
2021-10-28 08:51:22
1个回答
是的,如果您修改训练数据的分布(例如,通过使用原始训练图像集中的图像的旋转版本来增强它),您确实会更改训练数据的分布。
这很好,因为通常我们的训练目标不是在我们碰巧作为训练数据收集的数据集(例如一堆自然图像)上获得具有高性能的模型。我们的目标是训练一个模型,该模型可以很好地泛化到训练数据分布之外的新数据。
通常,训练数据只是我们真正感兴趣的分布的一个样本。例如,我们有兴趣对全世界的所有自然图像进行准确的预测。这是一个可能包括我们训练集中所有图像的旋转变体的分布。因此,如果我们通过添加这样的旋转变体来增加我们的训练集,我们希望以这样一种方式修改我们的训练数据分布,使其实际上更接近我们感兴趣的分布(所有自然图像)。
其它你可能感兴趣的问题