训练集、测试集和保持集之间有什么区别?
我知道这些概念,只是想确保我理解正确。
训练集是我们目前拥有的东西。我们将从其中删除子集,删除的子集将被称为保持集。
我们将使用剩余数据(移除保留集后剩余的数据)构建模型,并且保留集用于最终估计调整参数(步骤 1)
然后我们将在整个训练集(包括保持集)上构建最终模型。调整参数值与我们从步骤 1 中获得的值相同。
测试数据是我们未来得到的东西。我们不知道它们的 Y/因变量值,我们使用我们的模型对其进行预测。
训练集、测试集和保持集之间有什么区别?
我知道这些概念,只是想确保我理解正确。
训练集是我们目前拥有的东西。我们将从其中删除子集,删除的子集将被称为保持集。
我们将使用剩余数据(移除保留集后剩余的数据)构建模型,并且保留集用于最终估计调整参数(步骤 1)
然后我们将在整个训练集(包括保持集)上构建最终模型。调整参数值与我们从步骤 1 中获得的值相同。
测试数据是我们未来得到的东西。我们不知道它们的 Y/因变量值,我们使用我们的模型对其进行预测。
好吧,Hastie、Tibshirani 和 Friedman 在他们开创性的《统计学习的要素》(第 222 页)中说要将数据分为三个部分:
在模型建立在训练集上的情况下,使用验证集计算预测误差,使用测试集评估最终模型的泛化误差。这个测试集应该被锁定,直到模型校准过程完成,以防止低估真实的模型误差。
海斯蒂,T。Tibshirani, R. & Friedman, J. 统计学习的要素:数据挖掘、推理和预测 Springer Science+Business Media, Inc.,2009