确定 bootstrap 方法/Proposed Method 所需的样本量

机器算法验证 引导程序 样本量 方法
2022-02-03 11:35:07

我知道这是一个相当热门的话题,没有人能给出简单的答案。不过,我想知道以下方法是否有用。

仅当您的样本或多或少(准确地读取)与原始总体相同的分布时,引导方法才有用。为了确定是这种情况,您需要使您的样本量足够大。但是什么是足够大的呢?

如果我的前提是正确的,那么在使用中心极限定理来确定总体均值时,您也会遇到同样的问题。只有当您的样本量足够大时,您才能确定样本均值的总体是正态分布的(围绕总体均值)。换句话说,您的样本需要足够好地代表您的总体(分布)。但同样,什么是足够大的?

在我的情况下(管理流程:完成需求所需的时间与需求量)我有一个多模式分布的人口(所有在 2011 年完成的需求),我 99% 确信它甚至更少正态分布比人口(现在和过去一天之间完成的所有需求,理想情况下这个时间跨度尽可能小)我想研究。

我 2011 年的人口没有足够的单位来制造x样本量的样本n. 我选择一个值 x, 认为10(x=10)。现在我使用反复试验来确定一个好的样本量。我拿一个n=50,并使用 Kolmogorov-Smirnov 查看我的样本平均总体是否呈正态分布。如果是这样,我重复相同的步骤,但样本大小为40,如果不重复,样本大小为60(ETC。)。

过了一会儿,我得出结论n=45是获得或多或少很好地代表我的 2011 年人口的绝对最小样本量。因为我知道我感兴趣的人群(在今天和过去一天之间完成的所有需求)的方差较小,所以我可以安全地使用样本量n=45引导。(间接地,n=45决定了我的时间跨度:完成所需的时间45需要。)

简而言之,这是我的想法。但由于我不是统计学家,而是工程师,他的统计学课程发生在那个年代,我不能排除我刚刚产生了很多垃圾的可能性:-)。你们有什么感想?如果我的前提是有道理的,我是否需要选择一个x比大10,还是更小?根据您的回答(我是否需要感到尴尬?:-) 我将发布更多讨论想法。

对第一个答案的回复感谢您的回复,您的回答对我非常有用,尤其是书籍链接。
但我担心在我试图提供信息的过程中,我完全模糊了我的问题。我知道引导样本接管了总体样本的分布。我完全跟随你,但是...

您的原始人口样本需要足够大,以适度确定您的人口样本的分布对应(等于)人口的“真实”分布。

这只是关于如何确定原始样本量需要多大才能合理确定样本分布与总体分布相对应的一个想法。

假设您有一个双峰人口分布,并且一个顶部比另一个大很多。如果您的样本量为 5,则所有 5 个单位的值都非常接近大顶部的可能性很大(随机抽取一个单位的机会最大)。在这种情况下,您的样本分布将看起来是单峰的。

对于一百个样本大小,您的样本分布也是双峰的机会要大得多!!引导的问题在于您只有一个样本(并且您在该样本上进一步构建)。如果样本分布确实与总体分布不符,那么您就有麻烦了。这只是一个想法,可以使“不良样本分布”的机会尽可能低,而不必使样本量无限大。

2个回答

我对这个问题很感兴趣,因为我看到了 bootstrap 这个词,并且我写过关于 bootstrap 的书。人们还经常问“我需要多少个 bootstrap 样本才能获得 bootstrap 结果的良好 Monte Carlo 近似值?” 我对这个问题的建议答案是不断增加大小,直到收敛。没有一个数字适合所有问题。

但这显然不是您要问的问题。您似乎在问引导程序工作的原始样本大小需要是多少。首先我不同意你的前提。基本的非参数引导假设样本是从总体中随机抽取的。所以对于任何样本量n随机选择的样本分布自举中假设的抽样分布。引导原则说,选择一个随机大小的样本n可以通过选择大小的自举样本来模拟总体n从原始样本。自举原则是否成立并不取决于任何“看起来代表总体”的个体样本。它所依赖的是您正在估计的内容和总体分布的某些属性(例如,这适用于具有有限方差的总体分布的抽样均值,但不适用于具有无限方差的总体分布)。无论人口分布如何,它都不适用于估计极端值。

引导理论涉及显示估计的一致性。所以理论上可以证明它适用于大样本。但它也适用于小样本。我已经看到它适用于分类错误率估计,在小样本量(例如 20 个双变量数据)中效果特别好。

现在,如果样本量非常小(例如 4),则引导程序可能无法正常工作,因为可能的引导程序样本集不够丰富。在我的书或 Peter Hall 的书中讨论了样本量过小的这个问题。但是这种不同的引导样本数量很快就会变大。因此,即使对于小至 8 的样本量,这也不是问题。您可以查看以下参考资料:

重采样过程创建了许多可能的样本,研究可能已经抽取了这些样本。模拟样本中值的各种组合共同提供了对从同一总体中抽取的随机样本之间变异性的估计。这些潜在样本的范围允许程序构建置信区间并执行假设检验。

重要的是,随着 bootstrap 样本大小的增加,bootstrap 在大多数条件下会收敛于正确的采样分布。

关于您的问题:“这只是关于如何确定原始样本量需要多大才能合理确定样本分布与总体分布相对应的想法。”

这取决于您正在检查的特定问题,而不取决于引导样本大小。bootstrap 样本的目的仅仅是为了获得足够大的 bootstrap 样本量,通常至少为 1000,以便获得低 MC 误差,从而可以获得原始样本的分布统计信息,例如 95% CI。但这并不能保证所采集的原始样本能够代表实际的人口分布。