使用 K 折交叉验证来选择模型的参数

机器算法验证 交叉验证 模型选择
2022-04-07 10:55:06

我想我完全理解交叉验证的概念,但有一个方面我从未见过详细的。假设我有一个逻辑回归模型,其中包含要训练的四个参数。我在训练数据上使用 k (比如说 5)执行 k 折交叉验证,它产生 5 个不同的四个值集和 5 个不同的关联错误值。然后我应该如何选择要使用的模型?五个模型的加权组合?最好的?这样做的标准方法是什么?(如果有的话)它的数学基础是什么?

非常感谢您提前。

2个回答

交叉验证只是为您提供样本外风险的估计。它不会产生更好的模型。要获得对系数的最精确估计,您应该使用所有数据。

实际上,我已经知道该怎么做。以防万一有人偶然发现这个问题:交叉验证可以用作参数调整工具。要使用 K 折交叉验证调整模型的参数,您可以针对 K 种可能的数据组合训练和测试每个模型 K 次,并平均它们的输出-样本错误。获得最佳结果的模型将是(可能)更好地泛化的模型。