根据我在网上阅读的内容,嵌套 CV 的工作方式如下:
- 我将整个数据分成 k 折,其中 k-1 折是训练集,1 折是测试集。
- 有内部 CV 循环,我们可以在其中使用训练集进行网格搜索,以找到模型的最佳超参数。
- 有外部 CV 循环,我们在测试集上测量在内部折叠中获胜的模型的性能。
- 我们对不同的测试集和训练集重复上述过程,直到在某个时候,所有折叠都得到了他作为测试集的位置。
我无法理解的是,因为我们在运行的每个外部循环中都找到了超参数,所以我们可能会在每个循环的测试集中测试具有不同超参数的模型,所以我们可以使用这种嵌套交叉验证来找到最佳的超参数吗?模型?或者此评估的目标是为数据集找到最佳算法,如 SVM 或朴素贝叶斯?因为,如果我们在每个循环中得到不同的超参数,我们就不能说哪个是最好的。
英语不是我的第一语言,如果我的文字难以理解,请告诉我,以便我解决。