Bootstrapping 不会总是返回人口统计数据——那为什么要这么说呢?

机器算法验证 引导程序
2022-04-20 01:33:47

我浏览了互联网并查看了网站上的不同问题和答案,包括这个:here但是我发现没有任何东西可以解决以下问题。

假设您掷硬币 10 次并收到所有正面(正面等于 1,反面等于 0)。因此,样本均值和方差统计量分别为 1 和 0。此外,自举也将始终分别返回 1 和 0 的均值和方差。现在,假设硬币公平,连续翻转 10 个正面的机会不到 0.1%……但是如果你有 1000 个样本中的 1 个呢?自举只会返回您的样本统计信息....

我问这个问题是因为我听说它松散地说自举会返回人口统计数据。

编辑:我问这个问题的另一个原因是指出引导有其局限性并且不能防止坏样本(我承认这个例子是相当做作的)。正如@whuber 指出的那样,自举是一种渐近统计。但是,有什么方法可以决定我们的引导统计数据与真实人口统计数据的接近程度(或得出某种“信心”衡量标准——我在这里考虑的是集中度不平等)?

2个回答

启发式地,您可以认为引导程序背后的动机是,给定一个大样本,您的样本应该分布大约等于您的总体。如果您的样本分布大致等于您的总体,那么从您的样本中重新抽样并计算您的统计数据应该与从您的总体中重新抽样并计算您的统计数据大致相同。当然,它不会完全相同,因为您的样本与您的总体分布不完全相同

因此,在您的示例中,问题在于您绘制的样本看起来与您的总体非常不同,因此从您的样本中重新采样计算的统计数据看起来与从您的总体重新采样计算的统计数据非常不同。

尽管有你的例子,bootstrap 仍然是一个有效的过程,因为对于大样本,样本分布与总体分布的大偏差变得越来越不可能。

说“引导返回人口统计数据”是没有意义的。

首先,bootstrap 无法解决原始样本不具代表性的问题。因此我同意@CliffAB。

随着样本量的增加,随机抽取一个没有代表性的样本的机会会减少。如果只有一次投掷硬币,结果将总是“瘫痪”:样本中完全不存在总体中的两个(头部、尾部)元素(头部或尾部)。同时,正如@justanotherbrain 在问题中指出的那样,10 次投掷硬币中有 10 次正面朝上的机会略低于103- 比你只有一次投掷要好得多。@whuber 正确地指出引导属性是渐近的。我要补充一点,在某些条件下,bootstrap 比标准估计器更有效,例如达到n3/2而不是n1/2. (我不会在这里展开这些条件;在 Hall "The Bootstrap and Edgeworth Expansion" (1992)(这是一整本书)中给出了详细的处理。)

但是,让我提供另一个视角,为什么 bootstrap 通常是相关的。抱歉,如果它没有直接解决您的问题。

Bootstrap 可用于评估估算器(公式)是否正常工作。思路如下。

  1. 考虑原始样本(的n元素)作为“人口”
  2. 画一个n来自原始样本的元素引导样本
  3. 将估计量(公式)应用于引导样本以获得其实现(一个值)
  4. 多次迭代2.和3.,保存每次迭代的实现

多次迭代的实现将形成一个经验分布。您可以访问它的特征(均值、方差等)。

由于您将原始样本视为“总体”,因此您知道该总体的真实特征。然后,您可以从第 5 点获取经验分布(基于许多 bootstrap 实现),并查看它相对于估计器应该估计的实际总体特征(一项)的外观。

因此,您可以了解您的估算器(一个公式)是否有偏差,其方差有多大等。在评估估算器的属性时,所有这些都是有价值的信息。更好的是,原始样本通常应该对实际感兴趣的人群具有相当的代表性(与您的示例相反)。因此,您可以将您的结论从引导实验扩展到感兴趣的原始问题(通过类比)。

例如,如果您发现估计者倾向于低估总体特征b单位 (b代表偏见),你会添加b以原始样本为基础进行估计,以消除偏差。这样一来,您将获得对您最初所追求的特征的无偏估计。因此,您将在引导时有效地利用您对估计器的了解。

但最后我必须重申,如您的示例所示,如果原始样本不具代表性,则引导程序不是一种补救措施。