训练、测试和保持集数据挖掘模型构建之间的区别

机器算法验证 机器学习 术语 验证
2022-04-05 12:16:31

训练集、测试集和保持集之间有什么区别?

我知道这些概念,只是想确保我理解正确。

训练集是我们目前拥有的东西。我们将从其中删除子集,删除的子集将被称为保持集。

我们将使用剩余数据(移除保留集后剩余的数据)构建模型,并且保留集用于最终估计调整参数(步骤 1)

然后我们将在整个训练集(包括保持集)上构建最终模型。调整参数值与我们从步骤 1 中获得的值相同。

测试数据是我们未来得到的东西。我们不知道它们的 Y/因变量值,我们使用我们的模型对其进行预测。

1个回答

好吧,Hastie、Tibshirani 和 Friedman 在他们开创性的《统计学习的要素》(第 222 页)中说要将数据分为三个部分:

  1. 培训 (50%)
  2. 验证 (25%)
  3. 测试 (25%)

在模型建立在训练集上的情况下,使用验证集计算预测误差,使用测试集评估最终模型的泛化误差。这个测试集应该被锁定,直到模型校准过程完成,以防止低估真实的模型误差。

海斯蒂,T。Tibshirani, R. & Friedman, J. 统计学习的要素:数据挖掘、推理和预测 Springer Science+Business Media, Inc.,2009