在数据集中训练测试数据

数据挖掘 机器学习 统计数据 数据科学模型 数据分析
2022-03-07 04:38:12

在由 1,000 个样本组成的数据集中,已显示 70-30 的拆分(即 70% 的样本用于训练,30% 用于验证)将提供对训练模型的测试准确性的良好估计。如果数据集大小增加到 10,000 个样本,你会建议什么拆分?

1个回答

目前的方法使用 70/30 或 80/20,最常用的是 80/20(训练/测试)。但是,您还应该检查其他事项,例如您的数据是否平衡。如果您的数据不平衡,您可能需要使用欠采样或过采样。