我看到了这个关于 k 折交叉验证 (CV) 的视频讲座https://www.youtube.com/watch?v=wjILv3-UGM8 。视频讲座中给出的算法如下所示:
对于 k = 1:5
训练除了 k
获取模型
计算精度作为
结尾
计算最终的交叉验证准确度:
这对我来说很清楚。这里 我猜只是一种单一类型的 ML 算法。然而,在时间戳 6:35,演示者提出了一个问题,即我们如何处理所有 5 种不同的模型?据他说,我们要么结合所有模型并根据它做出决定,要么从 5 个模型中选出最好的模型。这个说法是真的吗?
在包括此处在内的许多站点中(https://stats.stackexchange.com/questions/310953/doubt-about-k-fold-crossvalidation?noredirect=1&lq=1; https://stats.stackexchange.com/questions/11602/ training-on-the-full-dataset-after-cross-validation和https://stats.stackexchange.com/questions/11602/training-on-the-full-dataset-after-cross-validation)和研究论文 I已经明白:
-- 为了使用 k 折 CV 进行模型训练,我们在 CV 循环结束后重新训练整个数据集,这就是最终模型。
-- 如果进行 CV 训练的想法是检查 ML 算法在整个数据集上的准确性,我们不会从 CV 循环内部选择任何模型。
-- 但是,如果我们在 CV 循环中有多个 ML 算法,比如随机森林、神经网络、SVM,那么我们会选择精度最高的算法。
-- 另一种技术,嵌套交叉验证用于超参数调整。
我的理解正确吗?