交叉验证测试和训练错误

数据挖掘 机器学习 交叉验证
2022-03-03 18:01:25

我遇到了这种流程图:

在此处输入图像描述

在流程图下方,出现以下内容:

“给定一个训练集,为调整参数 (λ,d) 的每个配置计算交叉验证误差。选择具有最低总体交叉验证误差的调整参数的配置是最好的,因为它会导致最好的模型性能使用调整参数的最佳配置,然后我们在原始训练集上训练模型 M2 和 M3,并使用原始测试集计算相应的测试 RMSE。”

  • 他们只提到了交叉验证错误(validation),从来没有提到火车交叉验证错误。
  • 短语选择具有最低总体交叉验证误差的调整参数配置是最好的,因为它会导致最好的模型性能正确吗?我的意思是,假设“最低的整体交叉验证错误导致最好的模型性能”,他们指的是交叉验证技术的“验证”错误,我想知道他们为什么会做出这样的假设?我们应该关心平均列车交叉验证误差还是只关心平均验证误差?

我正在使用一个库来玩推荐系统,它有一个名为return_train_measures = True的参数。然后它会同时抛出训练和测试错误:

在此处输入图像描述

1个回答

交叉验证误差仅使用训练集计算。选择具有最低交叉验证误差的模型最有可能成为尚未见过的数据的最佳模型。但它不一定是最好的,所以从这个意义上说,严格来说,你可以说这个短语是错误的。

即使您的样本是从数据生成过程中正确随机抽取的,它仍然是有限样本。想象一下,如果数据是一维的:每个示例都只是一个数字。由于运气不好,训练集的平均值可能与数据生成过程的平均值有很大偏差。这是一个简单的示例,但该数据的最佳模型不一定是该过程中任何样本的最佳模型。