在将我的标记数据拆分为训练、验证和测试集时,我听到了从 50/25/25 到 85/5/10 的所有内容。我确信这取决于您将如何使用您的模型以及您的学习算法是否容易过度拟合。有没有办法决定还是一切都是凭经验?甚至 ELSII 在这个问题上似乎也含糊其辞。
你如何决定你的训练、验证和测试百分比是多少?
机器算法验证
机器学习
交叉验证
2022-03-07 02:26:05
4个回答
) ,否则无需重新采样的拆分样本验证(交叉验证或更好:自举)是不可靠的。通常首选使用引导程序进行严格的内部验证,假设您对所有模型选择步骤进行了编程,以便可以在每个引导程序循环中重复它们。除了波动性之外,拆分样本方法的问题之一是难以选择拆分分数。
根据应用程序,您可能会跳过不确定性,而使用自举。
维基:http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
相关问题在这里。了解验证和模型选择的引导
当然,您还必须决定(双)重采样的分流比......
但是,如果您记住,重采样通常适用于相当广泛的分流比
- 如果这会减少可能的不同运行次数,则不要进行留一处理
- 在最里面的训练集中留下足够的训练用例,这样训练算法就有很好的机会产生一个有用的模型。
- 您拥有的独立案例越多,这些考虑因素就越不重要。
如果您正在处理 10000 < N < 1000000 的更大规模数据(但不是大数据)怎么办?
如果您不确定是否需要重新采样,您可以做的是:重新采样几次。足够了,您可以衡量是否需要重新采样。
- 检查预测的稳定性
- 检查模型参数的稳定性
有了这些结果,您可以决定是否应该添加更多的重采样迭代,或者事情是否正常。
对此没有硬性规定。但实证分析表明,你拥有的训练数据越多,你的准确率就会越高。但是无论你做什么,不要忘记把你所有的训练/验证/测试数据放在一起,当你结束的时候做一个 10 倍的 CV。这可以很好地了解您的实验过程中是否存在过拟合/欠拟合问题。
其它你可能感兴趣的问题