我试图了解测试数据集是否可用于选择最终训练的模型。让我们假设这种情况:
我首先拆分了整个数据集:70% 的训练,30% 的测试。然后我通过交叉验证在训练数据集上拟合几个模型(比如 NN、RandomForest、AdaBoost 等),并调整超参数以获得训练数据的最佳性能。我知道这些分数是有偏差的,因为我正在调整这些数据的超参数。
然后我使用测试数据集在无偏数据上获得真实性能,并选择哪个模型表现最好。
这是使用测试数据集的正确方法吗?一些混淆来自测试数据集的互联网定义:
用于对适合训练数据集的最终模型进行无偏评估的数据样本。
似乎它应该只用于获得最终训练模型的性能。我的老师告诉我,我不能根据测试数据集的分数来选择训练好的模型,并引用了上面的定义。我很难相信她是正确的。那么应该使用哪个数据集来选择模型呢?