我想引用Aurelien Geron 在使用 Scikit Learn 和 TensorFlow进行机器学习一书中的一段话,内容是在使用 k 折交叉验证对训练集进行超参数调整后评估最终测试集:
“如果您进行大量超参数调整,性能通常会比您使用交叉验证测量的稍差(因为您的系统最终经过微调以在验证数据上表现良好,并且在未知数据集上可能表现不佳). 在这个例子中不是这样,但是当这种情况发生时,你必须抵制调整超参数以使测试集上的数字看起来不错的诱惑;改进不太可能推广到新数据。
-第 2 章:端到端机器学习项目
我很困惑,因为他说当测试分数比交叉验证分数更差时(在训练集上),你不应该调整超参数来提高测试分数。但这不是拥有最终测试集的目的吗?如果测试分数更差,您无法调整超参数,那么评估最终测试集有什么用?