机器算法验证 - 了解验证和模型选择的引导 - 吾爱随笔录

机器算法验证模型选择交叉验证引导程序

2022-02-02 03:15:26

我想我了解引导的基本原理是如何工作的，但我不确定我是否理解如何使用引导进行模型选择或避免过度拟合。

例如，对于模型选择，您是否会选择在其引导样本中产生最低误差（可能是方差？）的模型？

是否有任何文本讨论如何使用自举进行模型选择或验证？

编辑：请参阅此线程和@mark999 的答案以了解此问题背后的更多上下文。

2个回答

首先你必须决定你是否真的需要模型选择，或者你只需要建模。在大多数情况下，根据维度，拟合灵活的综合模型是首选。

bootstrap 是评估模型性能的好方法。最简单的估计是方差。更重要的是，引导程序可以估计给定建模过程在尚未实现的新数据上可能的未来性能。

如果使用重采样（引导或交叉验证）来选择模型调整参数和估计模型，则需要双引导或嵌套交叉验证。

一般来说，bootstrap 需要的模型拟合（通常约为 300 次）比交叉验证（10 倍交叉验证应重复 50-100 次以保持稳定性）更少。

考虑使用引导程序进行模型平均。

下面的论文可能会有所帮助，因为它将引导模型平均方法与（更常用的？）贝叶斯建模平均方法进行了比较，并列出了执行模型平均的方法。

其它你可能感兴趣的问题