如何为小样本数据选择训练、交叉验证和测试集大小?

机器算法验证 机器学习 采样 支持向量机 交叉验证 样本量
2022-02-25 18:53:12

假设我的样本量很小,例如 N=100,并且有两个类别。我应该如何选择机器学习的训练、交叉验证和测试集大小?

我会直觉地选择

  • 训练集大小为 50
  • 交叉验证集大小为 25,以及
  • 测试大小为 25。

但这可能或多或少是有道理的。我应该如何真正决定这些值?我可以尝试不同的选择吗(尽管我想这不是那么可取……增加了过度学习的可能性)?

如果我有两个以上的课程怎么办?

2个回答

鉴于您的样本量很小,一个好的做法是省略交叉验证部分并使用 60 - 40 或 70 - 30 的比率。

正如您在Clementine 和数据挖掘简介的第 2.8 节以及MSDN 库 - 数据挖掘 - 训练和测试集中看到的那样, 70 - 30 的比率很常见。根据 Andrew Ng 的机器学习讲座,建议使用 60 - 20 - 20 的比例。

希望我对您有所帮助。最好的祝福。