增加训练集和验证集还是只增加训练集更好?

数据挖掘 机器学习 神经网络 数据集 训练 数据增强
2022-02-26 05:00:38

增加训练集和验证集的数据,还是只增加训练集,以便在卷积神经网络上获得尽可能好的准确度,是不是更好?为什么?

1个回答

增加训练集和验证集的数据,还是只增加训练集,以便在卷积神经网络上获得尽可能好的准确度,是不是更好?

增强总是一件好事,只要它代表了数据的实际分布。增加你的训练集可能会给你足够的样本来训练高方差低偏差模型[作为训练集样本的增加,如果足够通用,可以防止过度拟合]

验证集扩充为您提供更多样本进行验证,所以它总是很好。

但在某些情况下,增强数据与初始训练集样本非常相似。与其他样本相比,这增加了某些样本数据点的数量。由于数据集的偏差性质,这可能会导致模型过拟合。因此,确保扩充集中的样本不仅仅是数据的副本总是明智的。例如:在图像中,您可以添加随机噪声,而不仅仅是旋转它们。