多个模型的嵌套交叉验证泛化错误

数据挖掘 分类 scikit-学习 交叉验证 机器学习模型 模型选择
2022-02-25 03:02:28

我指的是这个问题:

嵌套交叉验证和选择最佳回归模型 - 这是正确的 SKLearn 流程吗?

在答案中,它表明嵌套 cv 可以估计不同算法的超参数优化的泛化误差。但在我看来,不同算法之间的选择也是一个优化过程,会导致泛化错误。因此,要么算法选择应该是内部 cv 的一部分,要么必须引入另一个第三个 cv 来评估算法选择的误差。这是一个正确的假设吗?

1个回答

一般来说,你是对的,据我所知,在这个答案中已经完成了。模型相互比较,同时在循环内找到它们的最佳调优。看起来不错。

关于你的观点,是的。但是机器学习的要点是,在某些时候我们需要停止/限制我们的尝试,因为可以完成任务的算法数量非常多。我们通常会尝试评估不同的算法系列,然后从那里缩小搜索范围,但最后我们永远不能声称我们找到的最佳答案必然是最好的答案。在另一个 POV 中,这是 ML 中许多研究论文背后的主要思想。他们只是创造性地找到/修改算法,并通过基准数据集证明它比以前应用的算法更好。