恕我直言,保留验证最糟糕的属性之一是心理而非统计:我看到很多保留被解释为好像它是一个独立的验证实验(独立性已经处于实验水平),尽管许多我在重采样验证中看到的关键问题也可以并且将与保留相同(任何由不正确拆分引起的问题)发生。
除此之外,恕我直言,它与重新采样几乎相同(至少正如我在实践中看到的那样)。差异是
- 实际不同的测试用例的总数较低(因此估计不太确定)。
- 有了hold-out,性能是针对实际测试的模型,而不是根据hold-out训练和hold-out测试数据构建的实际未经测试的模型。Resampling 声称测量的性能很好地近似于后一种模型的性能。但我也看到了以这种方式使用的保留方法(“设置验证”)。
Esbensen 和 Geladi:正确验证的原则:使用和滥用重新采样进行验证,化学计量学杂志,24 (3-4), 168-187实验)允许测量真正有趣的性能特征。
您最终可能会过度拟合测试数据,就像过度拟合训练数据一样。
与任何其他验证相同:如果您进行数据驱动的建模/模型选择,则需要另一个独立级别的验证。我在这里看不出保留方案和重采样方案有什么区别。
首先使用保留验证来构建和测试模型,然后作为验证步骤,多次重新绘制保留集以表明我对预测误差的估计(在测试集上)对测试中的抽样误差是稳健的放。出于某种原因,这是一个坏主意吗?
我认为是的,是的:恕我直言,应该使用嵌套设置
(除非您想建议也可以并且应该重复保留验证 - 这是一种有效的方法,它与仅通过解释的迭代/重复集验证不同:性能陈述是关于许多实际测试的模型,还是外推到由所有数据构建的一个模型)。