哪个更好:交叉验证或超参数优化的验证集?

机器算法验证 机器学习 超参数
2022-03-23 08:56:30

对于超参数优化,我看到了两种方法:

  1. 将数据集拆分为训练、验证和测试,并根据训练数据集的训练结果和验证数据集的评估结果优化超参数,保持测试集不变以进行最终的性能评估。

  2. 将数据集拆分为训练和测试,并在训练集上使用交叉验证优化超参数,使测试集保持不变以进行最终的性能估计。

那么哪种方法更好呢?

1个回答

交叉验证更加稳健。所以,总的来说,它更好。但是,随着数据集大小的增加,您获得的边际收益会减少。在小型数据集中,绝对建议这样做。另一方面,由于计算复杂性,它可能不是最佳选择。例如,训练可能非常昂贵,就像在深度神经网络中一样。在这种情况下,具有代表性的验证集优于验证折叠的统计平均值。