Jacknife 与 bootstrap 的比较

机器算法验证 方差 引导程序 多层次分析 重采样 折刀
2022-03-09 10:00:27

我有兴趣了解 bootstrap 与 jacknife 重采样的相对优缺点。两者都用于迭代算法方法来估计预测或分类的精度,但至少在统计文献中,使用 bootstrap 似乎存在一些偏差或偏好。维基百科对这些方法进行了有用的并排比较(例如,这里... https://en.wikipedia.org/wiki/Resampling_%28statistics%29#Bootstrap)但我的问题涉及一个特殊情况,即这:我已经读到,在数据是多级或具有其他复杂和混乱结构的情况下,与引导程序相比,折刀对方差的破坏要小。

任何人都可以验证此声明是否属实吗?参考支持文献会有所帮助。

1个回答

要了解为什么这两种方法都或多或少适合某个问题,让我们考虑一下它们的工作原理:

引导程序

样本B更换原始样品的次数。计算每个 bootstrap 样本上感兴趣的统计量,并估计 bootstrap 样本中统计量的标准偏差,作为测试统计量标准误差的近似值。通常,B=1,000甚至10,000. (然而,在他们的新书中,Efron 和 Hastie 认为,对于标准错误,只要B=200应该够了。)[1]

折刀

最简单的折刀使用重采样方案,您省略了1一次观察并最终得到n子样本,每个大小n1. 然后按照与引导程序相同的方式进行:计算每个子样本的感兴趣的统计量,并使用这些来获得标准误差的近似值。通常这只需要n子样本,虽然删除-d折刀的版本可以长得相当大

复杂设计的区别

这是症结所在:从您的原始样本(即引导程序)中进行替换采样会导致平均e1100%36.7%原始样本,并在子样本中引入完全相同的副本。相比之下,折刀式方法只会“花费”您1每个子样本中遗漏的观测值。

在复杂的情况下,例如在嵌套混合效应模型中估计方差分量,肯定会一次遗漏一个观察值,这会导致问题比随机抽样替换要少。

  • 由于遗漏了超过三分之一的(可能是平衡的)设计,可能会出现很大的不平衡;
  • 只有一次观察的随机效应类别更有可能发生;
  • 可能会出现只有一个独特的重复观察的随机效应类别。

总体而言,这意味着某些方差分量可能根本无法估计,并且收敛问题几乎肯定会出现在至少一些自举样本中。

埃夫隆和哈斯蒂[1]将引导程序的这种行为称为“更猛烈地摇动数据”,虽然对于复杂的分层设计确实有问题,但它也并非没有优势:已知折刀标准误差是正偏差的,尤其是当感兴趣的函数时不顺畅。另一方面,自举不依赖于局部导数并且工作得很好,即使函数不平滑。


:折刀标准误差由下式给出:n1n(θ^iθ^¯)2
: 离开-d-out 当然会花费你更多,但仍然可能比引导程序少,以免你最终得到与原始样本完全不同的样本大小的子样本。


[1]: Efron、Bradley 和 Trevor Hastie。计算机年龄统计推断:算法、证据和数据科学。纽约,纽约:剑桥大学出版社,2016 年打印。