Bootstrap:过拟合的问题

机器算法验证 引导程序 样本量 样本 小样本 有限种群
2022-02-08 05:57:42

假设一个人执行所谓的非参数引导程序,方法是从原始的个大小为的样本并进行替换。我相信这个过程相当于通过经验 cdf 估计累积分布函数:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

然后通过从估计的 cdf次连续nB

如果我在这方面是对的,那么就必须解决过度拟合的问题,因为经验 cdf 有大约 N 个参数。当然,它渐近收敛到总体 cdf,但是有限样本呢?例如,如果我告诉您我有 100 个观察值,并且我将使用两个参数将 cdf 估计为,您不会感到惊慌。但是,如果参数的数量增加到 100 个,这似乎根本不合理。N(μ,σ2)

同样,当使用标准多元线性回归时,误差项的分布估计为如果一个人决定切换到引导残差,他必须意识到现在大约有参数用于处理误差项分布。N(0,σ2)n

您能否指导我找到一些明确解决此问题的来源,或者如果您认为我弄错了,请告诉我为什么这不是问题。

3个回答

Janssen 和 Pauls表明,如果还可以应用中心极限定理,则自举统计可以渐近地工作。因此,如果您比较估计分布的参数作为统计量的分布,并通过引导程序估计统计量的分布就很重要了。N(μ,σ2)

直观地说,从有限样本中引导会低估潜在分布的重尾。这很清楚,因为有限样本的范围是有限的,即使它们的真实分布范围是无限的,或者更糟糕的是,它们的尾巴很重。所以引导统计的行为永远不会像原始统计那样“狂野”。类似于避免由于(参数)回归中的参数过多而导致的过度拟合,我们可以通过使用少参数正态分布来避免过度拟合。

编辑回复评论:请记住,您不需要引导程序来估计 cdf。您通常使用引导程序来获取某些统计数据的分布(在最广泛的意义上,包括分位数、矩量、任何需要)。因此,您不一定有过度拟合的问题(就“与我应该看到的真实野生分布相比,由于我的有限数据而进行的估计看起来太好了”)。但事实证明(引用的论文和下面弗兰克哈雷尔的评论),得到这样的过度拟合问题与相同统计数据的参数估计问题有关。

因此,正如您的问题所暗示的那样,自举并不是解决参数估计问题的灵丹妙药。希望引导程序通过控制整个分布来帮助解决参数问题是虚假的。

我不完全确定我是否理解您的问题...我假设您对收敛顺序感兴趣?

因为经验 cdf 有大约 N 个参数。当然,它渐近收敛到总体 cdf,但是有限样本呢?

你读过引导理论的基础知识吗?问题是它很快就变得非常疯狂(数学上)。

无论如何,我建议看看

范德法特“渐近统计”第 23 章。

Hall “Bootstrap 和 Edgeworth 扩展”(冗长但简洁,比我所说的 van der Vaart 更少手动)

为基础。

Chernick “引导方法”更针对用户而不是数学家,但有一个关于“引导失败的地方”的部分。

经典的 Efron/Tibshirani 几乎没有解释为什么 bootstrap 确实有效……

对于 iid 数据,直觉来源可能是比较参数 CDF 与 ECDF 的收敛速度。

通过 DKW,经验 CDF 在 a 处收敛到真实 CDFn1/2率(不仅仅是在某一点上,而是在整个 CDF 域上的绝对差异的上限值): https ://en.wikipedia.org/wiki/Dvoretzky%E2%80%93Kiefer%E2%80%93Wolfowitz_inequality http ://www.stat.cmu.edu/~larry/=stat705/Lecture12.pdf

并且通过 Berry-Esseen,单个均值的采样分布的 CDF 在n1/2率: https ://en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem (这不是我们想要的——我们想知道数据的估计参数 CDF 是如何收敛的,而不是关于抽样分布。但在最简单的理想情况下,数据为正态且σ是已知的,我们只需要估计μ,我想数据的 CDF 的收敛速度应该与平均值的 CDF 相同?)

因此,在某种意义上,您需要获取更多样本的速率是相同的,无论您是使用经验 CDF 估计 CDF,还是使用样本均值类型估计器直接估计参数。这可能有助于证明 Frank Harrell 的评论是正确的,即“有效参数的数量与样本量不同”。

当然,这还不是全部。尽管速率没有差异,但常数有差异。非参数引导程序比 ECDF 还多——一旦你估计它,你仍然需要对 ECDF做一些事情。