要了解为什么这两种方法都或多或少适合某个问题,让我们考虑一下它们的工作原理:
引导程序
样本乙更换原始样品的次数。计算每个 bootstrap 样本上感兴趣的统计量,并估计 bootstrap 样本中统计量的标准偏差,作为测试统计量标准误差的近似值。通常,B = 1 , 000甚至10 , 000. (然而,在他们的新书中,Efron 和 Hastie 认为,对于标准错误,只要B = 200应该够了。)[ 1 ]
折刀
最简单的折刀使用重采样方案,您省略了1一次观察并最终得到n子样本,每个大小n - 1. 然后按照与引导程序相同的方式进行:计算每个子样本的感兴趣的统计量,并使用这些来获得标准误差的近似值。†通常这只需要n子样本,虽然删除-d折刀的版本可以长得相当大。
复杂设计的区别
这是症结所在:从您的原始样本(即引导程序)中进行替换采样会导致平均e− 1⋅ 100 % ≈ 36.7 %原始样本,并在子样本中引入完全相同的副本。相比之下,折刀式方法只会“花费”您1每个子样本中遗漏的观测值。‡
在复杂的情况下,例如在嵌套混合效应模型中估计方差分量,肯定会一次遗漏一个观察值,这会导致问题比随机抽样替换要少。
- 由于遗漏了超过三分之一的(可能是平衡的)设计,可能会出现很大的不平衡;
- 只有一次观察的随机效应类别更有可能发生;
- 可能会出现只有一个独特的重复观察的随机效应类别。
总体而言,这意味着某些方差分量可能根本无法估计,并且收敛问题几乎肯定会出现在至少一些自举样本中。
埃夫隆和哈斯蒂[ 1 ]将引导程序的这种行为称为“更猛烈地摇动数据”,虽然对于复杂的分层设计确实有问题,但它也并非没有优势:已知折刀标准误差是正偏差的,尤其是当感兴趣的函数时不顺畅。另一方面,自举不依赖于局部导数并且工作得很好,即使函数不平滑。
†:折刀标准误差由下式给出:n - 1n(θ^一世-θ^¯)2------------√
‡: 离开-d-out 当然会花费你更多,但仍然可能比引导程序少,以免你最终得到与原始样本完全不同的样本大小的子样本。
[ 1 ]: Efron、Bradley 和 Trevor Hastie。计算机年龄统计推断:算法、证据和数据科学。纽约,纽约:剑桥大学出版社,2016 年。打印。