这个问题是由我在这本研究生统计教科书中读到的内容引发的,并且在统计研讨会上的演讲中也(独立地)听到了一些内容。在这两种情况下,声明都遵循“因为样本量非常小,我们决定通过引导程序而不是(或连同)这个参数方法来执行估计”。
他们没有深入细节,但可能的推理如下:方法假设数据遵循某个参数分布。实际上,分布并不完全是,但只要样本量足够大就可以了。由于在这种情况下样本量太小,让我们切换到不做任何分布假设的(非参数)引导程序。问题解决了!
在我看来,这不是引导程序的用途。以下是我的看法:当有足够的数据或多或少明显时,引导程序可以给一个优势,但没有封闭形式的解决方案来获得标准误差、p 值和类似的统计数据。一个典型的例子是给定一个双变量正态分布样本的相关系数的 CI:存在封闭形式的解决方案,但它非常复杂,以至于自举更简单。但是,没有任何迹象表明 bootstrap 可以以某种方式帮助人们摆脱小样本量。
我的看法对吗?
如果你觉得这个问题很有趣,我还有另一个更具体的引导问题:
PS 我忍不住要分享一个“引导方法”的令人震惊的例子。我没有透露作者的名字,但他是老一辈的“量化专家”之一,他在 2004 年写了一本关于量化金融的书。例子取自那里。
考虑以下问题:假设您有 4 个资产和每个资产的 120 个月收益观察值。目标是构建年度回报的联合 4 维 cdf。即使对于单个资产,仅通过 10 年的观察似乎也很难完成这项任务,更不用说 4 维 cdf 的估计了。但不用担心,“bootstrap”会帮助您:取出所有可用的 4 维观察值,对 12 个进行替换并重新采样,然后将它们复合以构建单个“bootstrap” 4 维年回报向量。重复 1000 次,你瞧,你得到了一个包含 1000 个年度回报的“引导样本”。将此用作大小为 1000 的 iid 样本,用于 cdf 估计或任何其他可以从一千年历史中得出的推论。