我的问题:即使是相对较大的数据集,我也应该做简历吗?
我有一个比较大的数据集,我会对数据集应用机器学习算法。
由于我的电脑速度不快,CV(和网格搜索)有时需要很长时间。特别是 SVM 永远不会因为大量的调整参数而结束。因此,如果我做一份简历,那么我需要选择一个相对较小的数据。
另一方面,验证集也应该很大,所以我认为使用与训练集大小相同(或更大)的验证集是个好主意。(也就是说,我使用大型验证集代替 CV 进行参数调整。)
所以我现在至少有两个选择。
- 在一个小数据集上做 CV。
- 使用相对较大的训练集和没有CV的验证集。
- 其他想法。
最好的主意是什么?欢迎提出理论或实践意见。