了解验证和模型选择的引导

机器算法验证 模型选择 交叉验证 引导程序
2022-02-02 03:15:26

我想我了解引导的基本原理是如何工作的,但我不确定我是否理解如何使用引导进行模型选择或避免过度拟合。

例如,对于模型选择,您是否会选择在其引导样本中产生最低误差(可能是方差?)的模型?

是否有任何文本讨论如何使用自举进行模型选择或验证?

编辑:请参阅线程和@mark999 的答案以了解此问题背后的更多上下文。

2个回答

首先你必须决定你是否真的需要模型选择,或者你只需​​要建模。在大多数情况下,根据维度,拟合灵活的综合模型是首选。

bootstrap 是评估模型性能的好方法。最简单的估计是方差。更重要的是,引导程序可以估计给定建模过程在尚未实现的新数据上可能的未来性能。

如果使用重采样(引导或交叉验证)来选择模型调整参数和估计模型,则需要双引导或嵌套交叉验证。

一般来说,bootstrap 需要的模型拟合(通常约为 300 次)比交叉验证(10 倍交叉验证应重复 50-100 次以保持稳定性)更少。

一些模拟研究可以在http://biostat.mc.vanderbilt.edu/rms找到

考虑使用引导程序进行模型平均

下面的论文可能会有所帮助,因为它将引导模型平均方法与(更常用的?)贝叶斯建模平均方法进行了比较,并列出了执行模型平均的方法。

Bootstrap 模型平均在颗粒物空气污染和死亡率的时间序列研究中