帮助理解嵌套交叉验证

数据挖掘 交叉验证 模型选择
2021-10-10 18:43:27

根据我在网上阅读的内容,嵌套 CV 的工作方式如下:

  • 我将整个数据分成 k 折,其中 k-1 折是训练集,1 折是测试集。
  • 有内部 CV 循环,我们可以在其中使用训练集进行网格搜索,以找到模型的最佳超参数。
  • 有外部 CV 循环,我们在测试集上测量在内部折叠中获胜的模型的性能。
  • 我们对不同的测试集和训练集重复上述过程,直到在某个时候,所有折叠都得到了他作为测试集的位置。

我无法理解的是,因为我们在运行的每个外部循环中都找到了超参数,所以我们可能会在每个循环的测试集中测试具有不同超参数的模型,所以我们可以使用这种嵌套交叉验证来找到最佳的超参数吗?模型?或者此评估的目标是为数据集找到最佳算法,如 SVM 或朴素贝叶斯?因为,如果我们在每个循环中得到不同的超参数,我们就不能说哪个是最好的。

英语不是我的第一语言,如果我的文字难以理解,请告诉我,以便我解决。

1个回答

通常,您将外部 CV 视为仅估计拟合方法的性能。在这一点上,您不期望最终模型出来。然后,您可以将相同的模型拟合方法(内部 CV 中发生的情况)应用于整个数据集以生成模型,并且您说您希望性能估计适用于这个新模型。

https://stats.stackexchange.com/a/65158/232706
https://datascience.stackexchange.com/a/16856/55122
https://stats.stackexchange.com/q/11602/232706
https://stats .stackexchange.com/q/52274/232706