重新采样小型数据集 - 过度计数的问题?

机器算法验证 引导程序 重采样
2022-04-19 23:44:22

这里的假设情况,因为像引导这样的技术对于非常小的数据集通常会失败。

尽管如此,还是以自举为例。我们可以很容易地计算可能的引导(重新)样本的数量。

@whuber 在这里给出了一个很好的答案:

可能的引导样本数量

假设一下,自举对于低样本量是完全有效的。现在,假设我们有从上面发布的解决方案中,发现总共可以绘制 126 个可能的 boostrap 重采样。n=5

在引导过程中,我们通常会进行大量复制(例如 10000 个)。对如此小的数据集进行如此多的复制(如上面的数据集)似乎很奇怪,因为重新采样将被计算多次。

问题:这真的重要吗?如果是。对推理有什么影响?

3个回答

在引导时,我们假设样本代表总体。

自举的全部目的是估计抽样分布并推断整个人口的可能标准误差和置信区间。

然而,小样本的问题在于相对于大样本更可能存在偏差——并且(与普遍的看法相反)自举并不能解决这种偏差或解决小样本的问题。

例如,假设一个人要掷骰子五次。获得数字 4、5、6、6、6,平均为5.4

如果一个人掷骰子一百次,可以预期平均值接近3.5 - 这是理论平均值。

然而,小样本有更高的机会显着偏离总体均值,因此引导抽样无法通过简单地生成更多观测值来解决这一问题。

小样本量的问题不在于您将重复引导样本,而是原始小样本可能无法代表总体。

让我们从一个公平的硬币中获得一个硬币翻转的样本,所以真正的人口是,让我们使用你的小样本量在 R…Binom(1,0.5)n=5

set.seed(314) # For pi
x <- rbinom(5, 1, 0.5)

我得到四个(正面)和一个(反面),这意味着有的机会出现反面,而不是正确的当我们去引导这个样本时,我们告诉引导过程从分布中进行抽样,这与真正的总体有很大不同。0120%50%Binom(1,0.2)Binom(1,0.5)

当样本量较大时,我们不太可能拥有与总体差异如此之大的样本。

为了从经验分布中近似(在标准情况下)iid 样本的分布,绘制了许多 bootstrap 复制。现在,如果您可以明确地获得此分布,这可以通过一个小样本来列出,因为您可以列出所有可能的样本及其概率,则无需通过大量随机引导样本来近似它。相反,您可以只使用引导样本的完整分布(显然,其他答案中提到的小样本缺乏代表性的潜在问题仍然存在,但我相信这不是问题)。

请注意,来自经验分布的 iid 采样将在有序而不是不同的样本上产生统一的概率,这意味着如果您想通过一组样本来模拟真实的引导分布,您将需要对 126 个不同的样本中的大多数进行一些重复样品。这可以通过随机抽取大量自举样本来近似,因此这里的样本多次计数不是问题,而是发生的情况是您使用的计算能力比所需的计算能力多.