为什么机器学习工程师坚持使用比验证集更多的数据进行训练?

数据挖掘 线性回归 训练 大数据 贝叶斯 验证
2022-02-15 11:15:48

在我的同事中,我注意到一种奇怪的坚持,即使用 70% 或 80% 的数据进行训练并验证其余数据。我对它感到好奇的原因是缺乏任何理论推理,而且它带有五重交叉验证习惯的影响。

在训练期间尝试检测过拟合时,是否有任何理由选择更大的训练集?换句话说,为什么不使用n0.75用于培训和nn0.75验证影响是否真的来自我在这个答案中建议的线性建模理论的交叉验证实践?

我在 stats.stackexchange.com 上发布了一个类似的问题,但根据回复认为我可能会在这里进行更有趣的讨论。在我看来,多时期训练的概念本质上是贝叶斯的,因此交叉验证的概念在最坏的情况下可能是不合适的,在最好的情况下是不必要的,原因我在那篇文章中提出了建议。

1个回答

推理将是:“用于训练的数据越多越好”。然后你必须记住,验证/保留集必须类似于它在生产/测试中的工作方式。该理论认为,训练数据越大,模型的泛化效果就越好。

验证集可以小很多,在非常大的数据集上你甚至可以让它占数据的 0.01%,应该没有问题。

在基本情况下,您甚至不需要进行 K 折,这会使训练更加昂贵,并且仅用于超参数搜索并且需要在训练集中进行。

对于您的情况,您可以考虑所需的拆分。只需保持训练数据尽可能大和验证数据尽可能类似于最佳生产环境的平衡。