我知道为了访问分类器的性能,我必须将数据拆分为训练/测试集。但是读这个:
在评估估计器的不同设置(“超参数”)时,例如必须为 SVM 手动设置的 C 设置,仍然存在在测试集上过度拟合的风险,因为可以调整参数直到估计器表现最佳。这样,关于测试集的知识可以“泄漏”到模型中,并且评估指标不再报告泛化性能。为了解决这个问题,可以将数据集的另一部分作为所谓的“验证集”:在训练集上进行训练,然后对验证集进行评估,当实验似乎成功时,最终评估可以在测试集上完成。
我看到引入了另一个(第三个)验证集,这是通过在超参数调整期间过度拟合测试集来证明的。
问题是我无法理解这种过度拟合是如何出现的,因此无法理解第三组的理由。