在由 1,000 个样本组成的数据集中,已显示 70-30 的拆分(即 70% 的样本用于训练,30% 用于验证)将提供对训练模型的测试准确性的良好估计。如果数据集大小增加到 10,000 个样本,你会建议什么拆分?
在数据集中训练测试数据
数据挖掘
机器学习
统计数据
数据科学模型
数据分析
2022-03-07 04:38:12
1个回答
目前的方法使用 70/30 或 80/20,最常用的是 80/20(训练/测试)。但是,您还应该检查其他事项,例如您的数据是否平衡。如果您的数据不平衡,您可能需要使用欠采样或过采样。
其它你可能感兴趣的问题