机器算法验证 - 训练、测试和保持集数据挖掘模型构建之间的区别 - 吾爱随笔录

机器算法验证机器学习术语验证

2022-04-05 12:16:31

训练集、测试集和保持集之间有什么区别？

我知道这些概念，只是想确保我理解正确。

训练集是我们目前拥有的东西。我们将从其中删除子集，删除的子集将被称为保持集。

我们将使用剩余数据（移除保留集后剩余的数据）构建模型，并且保留集用于最终估计调整参数（步骤 1）

然后我们将在整个训练集（包括保持集）上构建最终模型。调整参数值与我们从步骤 1 中获得的值相同。

测试数据是我们未来得到的东西。我们不知道它们的 Y/因变量值，我们使用我们的模型对其进行预测。

1个回答

好吧，Hastie、Tibshirani 和 Friedman 在他们开创性的《统计学习的要素》（第 222 页）中说要将数据分为三个部分：

在模型建立在训练集上的情况下，使用验证集计算预测误差，使用测试集评估最终模型的泛化误差。这个测试集应该被锁定，直到模型校准过程完成，以防止低估真实的模型误差。

海斯蒂，T。Tibshirani, R. & Friedman, J. 统计学习的要素：数据挖掘、推理和预测 Springer Science+Business Media, Inc.，2009

其它你可能感兴趣的问题