数据挖掘 - 哪个更好：交叉验证或超参数优化的验证集？ - 吾爱随笔录

哪个更好：交叉验证或超参数优化的验证集？

数据挖掘机器学习超参数调整

2022-02-21 14:46:59

对于超参数优化，我看到了两种方法：

将数据集拆分为训练、验证和测试，并根据训练数据集的训练结果和验证数据集的评估结果优化超参数，保持测试集不变以进行最终的性能评估。
将数据集拆分为训练和测试，并在训练集上使用交叉验证优化超参数，使测试集保持不变以进行最终的性能估计。

那么哪种方法更好呢？

1个回答

折交叉验证 (CV) 过程（方法 2）实际上与方法 1 做同样的事情，但它在训练集和验证集上重复了k。因此，对于 CV，在选择最佳超参数值之前次运行的性能进行平均。这使得性能和价值选择总体上更加可靠，因为偶然获得最佳结果的风险较小。然而它需要更长的时间（因为重复次），所以如果训练过程很长，使用 CV 并不总是可行的。 $k$ $k$ $k$ $k$

其它你可能感兴趣的问题

上一篇训练或推理期间的变压器掩蔽？下一篇使用小数据集更快地进行网格搜索以获取最佳参数而不是完整数据集？