与 k-fold CV 相比,保留验证是否更接近“获取新数据”?

机器算法验证 交叉验证
2022-03-26 21:11:14

我一直在重新考虑几周前我对一个问题的回答

保留交叉验证产生一个可以重复用于演示的测试集。我们似乎都同意这在很多方面是一个负面特征,因为一个被保留的集合可能会因为随机性而变得不具代表性。此外,您最终可能会过度拟合测试数据,就像过度拟合训练数据一样。

但是,在我看来,保留样本的静态性质比 k 折 CV 更接近“获取更多数据”,并且避免了跨折平均的问题。然而,我无法为我的这种感觉提供任何统计依据。我的直觉有什么逻辑吗?

例如,我对即将到来的项目的想法是首先使用保留验证来构建和测试模型,然后作为验证步骤,多次重新绘制保留集以显示我对预测误差的估计(在测试集上)对测试集中的抽样误差具有鲁棒性。出于某种原因,这是一个坏主意吗?以前有人问过这个问题,但从未得到答案。

1个回答

恕我直言,保留验证最糟糕的属性之一是心理而非统计:我看到很多保留被解释为好像它是一个独立的验证实验(独立性已经处于实验水平),尽管许多我在重采样验证中看到的关键问题也可以并且将与保留相同(任何由不正确拆分引起的问题)发生。

除此之外,恕我直言,它与重新采样几乎相同(至少正如我在实践中看到的那样)。差异是

  • 实际不同的测试用例的总数较低(因此估计不太确定)。
  • 有了hold-out,性能是针对实际测试的模型,而不是根据hold-out训练和hold-out测试数据构建的实际未经测试的模型。Resampling 声称测量的性能很好地近似于后一种模型的性能。但我也看到了以这种方式使用的保留方法(“设置验证”)。

Esbensen 和 Geladi:正确验证的原则:使用和滥用重新采样进行验证,化学计量学杂志,24 (3-4), 168-187实验)允许测量真正有趣的性能特征。

您最终可能会过度拟合测试数据,就像过度拟合训练数据一样。

与任何其他验证相同:如果您进行数据驱动的建模/模型选择,则需要另一个独立级别的验证。我在这里看不出保留方案和重采样方案有什么区别。

首先使用保留验证来构建和测试模型,然后作为验证步骤,多次重新绘制保留集以表明我对预测误差的估计(在测试集上)对测试中的抽样误差是稳健的放。出于某种原因,这是一个坏主意吗?

我认为是的,是的:恕我直言,应该使用嵌套设置
(除非您想建议也可以并且应该重复保留验证 - 这是一种有效的方法,它与仅通过解释的迭代/重复集验证不同:性能陈述是关于许多实际测试的模型,还是外推到由所有数据构建的一个模型)。