假设我们将数据集分成 3 部分(训练、验证和测试)。我知道确保测试集在模型选择或超参数调整期间不会影响我们的决策很重要,否则我们最终可能会过度拟合测试集并得到不切实际的结果。因此,如果我们测试某个模型然后尝试更改其超参数并在同一测试集上再次训练、验证和测试它,这显然是错误的。
但是,如果我们训练和验证了 5 个不同的模型,并且我们决定不再修改它们中的任何一个,该怎么办。然后我们在(相同的)看不见的测试集上测试了 5 个模型中的每一个。如果我们选择能够达到最佳测试结果的模型,这不就像我们尝试不同的超参数组合并选择在测试集上具有最佳性能的模型一样吗?
从这个意义上说,当研究论文提出多种方法,在相同的数据上测试它们,并决定其中一个是最好的,因为它在测试集上的性能最好?不是假设测试集不会影响最佳方法的选择吗?
但如果这是错误的,我们应该如何在同一测试集上比较方法(来自不同论文)而不会有偏见?我觉得这一点存在矛盾。
