如何使用ķk-折叠交叉验证?

数据挖掘 机器学习 交叉验证 模型选择
2022-02-22 06:54:26

让我们考虑一个数据的情况,即数据集1000U={x1,,x1000}.

当我们要使用折验证方案时,我们首先将数据集划分为个组。kk

不失一般性,假设参数k10

因此,我们有 , , ,S1={x1,,x100}S2={x101,,x200}S10={x901,,x1000}

我可以通过学习数据集 forfkUSkk=1,2,,10

我可以通过使用测试数据集来获得错误率rkSkfk

因此,我可以通过平均来获得错误率,即rrkk=110rk/10

到目前为止,我了解k


我见过的大多数材料只是说折交叉验证个场景的平均错误率。但是,他们没有说的。kkfk

但是,在这种情况下,我必须在所有中使用哪个模型?fk

1个回答

k-fold 只是为了获得准确度的度量,因为使用训练准确度通常是对准确度的过于乐观的度量。如果要部署最终模型,建议使用所有数据训练最后一个模型。事实上,当你比较两个模型时,fg, 你所做的是获得两个错误率rfrg通过交叉验证,您可以保持模型的错误率最低。之后,如果错误率最低的模型是f, 你再训练f与您的所有数据。

总结一下,k-fold 交叉验证是一种衡量模型性能的方法,如果您想获得最佳模型,只需使用所有数据对其进行训练。