我最近一直在阅读有关模型选择算法的文章(例如,决定正则化参数的值或要使用的神经网络的大小,广义上的超参数)。这是通过将示例分成三组(训练 60%,交叉验证 20%,测试 20%)并在数据上完成所有参数的第一组训练,然后根据结果选择最佳参数在交叉验证中,最后使用测试集估计性能。
我了解与选择模型的训练和测试相比需要不同的数据集,但是,一旦选择了模型,为什么不在估计性能之前使用交叉验证示例来改进假设呢?
我能看到的唯一原因是,这可能会导致假设恶化,我们将无法检测到它,但是,通过添加更多示例(60% -> 80%),假设真的有可能变得更糟吗? ?