数据挖掘 - 多个模型的嵌套交叉验证泛化错误 - 吾爱随笔录

多个模型的嵌套交叉验证泛化错误

数据挖掘分类 scikit-学习交叉验证机器学习模型模型选择

2022-02-25 03:02:28

我指的是这个问题：

在答案中，它表明嵌套 cv 可以估计不同算法的超参数优化的泛化误差。但在我看来，不同算法之间的选择也是一个优化过程，会导致泛化错误。因此，要么算法选择应该是内部 cv 的一部分，要么必须引入另一个第三个 cv 来评估算法选择的误差。这是一个正确的假设吗？

1个回答

一般来说，你是对的，据我所知，在这个答案中已经完成了。模型相互比较，同时在循环内找到它们的最佳调优。看起来不错。

关于你的观点，是的。但是机器学习的要点是，在某些时候我们需要停止/限制我们的尝试，因为可以完成任务的算法数量非常多。我们通常会尝试评估不同的算法系列，然后从那里缩小搜索范围，但最后我们永远不能声称我们找到的最佳答案必然是最好的答案。在另一个 POV 中，这是 ML 中许多研究论文背后的主要思想。他们只是创造性地找到/修改算法，并通过基准数据集证明它比以前应用的算法更好。

其它你可能感兴趣的问题

上一篇数据格式化的最佳实践是什么？下一篇向线性感知器添加额外无关特征的效果