让我们考虑一个数据的情况,即数据集
当我们要使用折验证方案时,我们首先将数据集划分为个组。
不失一般性,假设参数为。
因此,我们有 , , ,。
我可以通过学习数据集 for。
我可以通过使用测试数据集来获得错误率。
因此,我可以通过平均来获得错误率,即。
到目前为止,我了解
我见过的大多数材料只是说折交叉验证个场景的平均错误率。但是,他们没有说的。
让我们考虑一个数据的情况,即数据集
当我们要使用折验证方案时,我们首先将数据集划分为个组。
不失一般性,假设参数为。
因此,我们有 , , ,。
我可以通过学习数据集 for。
我可以通过使用测试数据集来获得错误率。
因此,我可以通过平均来获得错误率,即。
到目前为止,我了解
我见过的大多数材料只是说折交叉验证个场景的平均错误率。但是,他们没有说的。
-fold 只是为了获得准确度的度量,因为使用训练准确度通常是对准确度的过于乐观的度量。如果要部署最终模型,建议使用所有数据训练最后一个模型。事实上,当你比较两个模型时,和, 你所做的是获得两个错误率和通过交叉验证,您可以保持模型的错误率最低。之后,如果错误率最低的模型是, 你再训练与您的所有数据。
总结一下,-fold 交叉验证是一种衡量模型性能的方法,如果您想获得最佳模型,只需使用所有数据对其进行训练。