如何决定训练测试拆分?

人工智能 机器学习 训练 交叉验证 测试
2021-11-16 06:50:15

在几乎每个 ML 模型中,训练测试(或训练测试验证拆分)对于评估模型的性能至关重要。但是,我一直想知道决定特定训练测试拆分的基本原理是什么。我看到有些人喜欢 80-20 分,有些人选择 90-10,但为什么呢?这只是一个偏好问题吗?另外,为什么不是 70-30 或 60-40,最好的决定方法是什么?

1个回答

我不认为选择 80/20 而不是 75/25 或其他有任何理由。但这些是相当小的数据集的数字。如果您的数据集足够大(如数十万个样本),您甚至可以使用 98/1/1% 的训练/验证/测试,正如 Andrew Ng在本视频中所讨论的那样。大数据使神经网络蓬勃发展,充分利用大数据总是一个好主意。