我正在用通常的设置训练模型,你保留一部分数据(在我的例子中,20%)只是为了看看你的训练模型如何推广到看不见的数据,看看它是否过度拟合。
在进行模型选择(选择超参数)时,我有时会遇到以下情况:
超参数配置1:
training set score: 0.6 validation set score: 0.6超参数配置2:
training set score: 0.9 validation set score: 0.65
现在,如果您查看原始数字,看起来配置 2 的泛化能力确实优于配置 1,但我有点担心训练数据和验证数据的分数之间的巨大差异(0.9 到 0.65)。
我的问题是:在选择实际用于生产的最佳模型时,我应该只考虑验证分数,还是训练集和验证集分数之间的比率携带一些信息?
我很想相信训练集和验证集分数或多或少相似的情况(如上面的配置 1)在某种程度上比差异很大的情况更稳定,即使从绝对意义上来说,泛化配置 2 的得分更好。
这种感觉有实际依据吗?有人可以对此有所了解吗?