数据挖掘 - 直观解释训练集分数和验证集分数之间的比率 - 吾爱随笔录

我正在用通常的设置训练模型，你保留一部分数据（在我的例子中，20%）只是为了看看你的训练模型如何推广到看不见的数据，看看它是否过度拟合。

在进行模型选择（选择超参数）时，我有时会遇到以下情况：

超参数配置1：

training set score: 0.6
validation set score: 0.6

超参数配置2：

training set score: 0.9
validation set score: 0.65

现在，如果您查看原始数字，看起来配置 2 的泛化能力确实优于配置 1，但我有点担心训练数据和验证数据的分数之间的巨大差异（0.9 到 0.65）。

我的问题是：在选择实际用于生产的最佳模型时，我应该只考虑验证分数，还是训练集和验证集分数之间的比率携带一些信息？

我很想相信训练集和验证集分数或多或少相似的情况（如上面的配置 1）在某种程度上比差异很大的情况更稳定，即使从绝对意义上来说，泛化配置 2 的得分更好。

这种感觉有实际依据吗？有人可以对此有所了解吗？