我试图弄清楚那些看起来令人困惑的术语。我知道机器学习模型中使用了三种数据“拆分”:
- 训练数据 - 训练模型
- 验证数据 - 模型选择的交叉验证
- 测试数据 - 测试泛化错误。
现在,据我所知,验证数据并不总是被使用,因为可以使用 k 折交叉验证,从而减少进一步减少数据集的需要。其结果称为验证准确度。然后,一旦选择了最好的模型,模型就会从初始数据集(尚未用于训练)中分割出 33% 进行测试。这样的结果会是测试的准确性吗?
这是正确的方法吗?反之亦然?我发现网上使用的术语相互矛盾!我试图找到一些解释为什么我的验证错误大于我的测试错误,但在我找到解决方案之前,我想让我的术语正确。
谢谢。