使用 bootstrap 获得第一百分位数的抽样分布

机器算法验证 置信区间 引导程序 分位数 极值
2022-03-24 15:04:34

我有一个来自人群的样本(大小为 250)。不知道人口分布。

主要问题:我想要人口的第一个百分位数的点估计然后我想要围绕我的点估计的 95% 置信区间。

我的点估计将是样本 1 st -percentile。我表示它x

之后,我尝试围绕点估计建立置信区间。我想知道在这里使用引导程序是否有意义。我对引导程序非常缺乏经验,所以如果我没有使用适当的术语等,请原谅。

这是我尝试做到的方式。我从原始样本中抽取了 1000 个随机样本进行替换。我从他们每个人那里获得了第一个百分位数。因此,我有 1000 分 - “第一百分位数”。我看一下这 1000 个点的经验分布。我表示它的平均值我将“偏差”表示如下:我取 1000 个点中的第 2.5百分位数和第 97.5百分位数来获得我称之为原始样本第 1 个百分位数周围的 95% 置信区间的下限和上限。我表示这些点xmeanbias=xmeanxx0.025x0.975

剩下的最后一步是调整这个置信区间,使其在总体的第 1 个百分位附近,而不是在原始样本的一个百分位附近因此我取作为下端,作为上端总体第 1 个百分位数的点估计值周围的 95% 置信区间这最后一个间隔是我正在寻找的。xbias(xmeanx0.025)xbias+(x0.975xmean)

在我看来,一个关键点是,将bootstrap用于第 1 个百分位数是否有意义,该百分位数相当接近于人口未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小值(或最大值)附近建立置信区间。

但也许这种方法有缺陷?请告诉我。

编辑:

稍微考虑一下这个问题后,我发现我的解决方案意味着以下内容:原始样本的第 1 个经验百分位可能是总体第 1 个百分位的有偏估计如果是这样,点估计应该进行偏差调整:否则,偏差调整的置信区间将与偏差未调整的点估计值不兼容。我需要调整点估计和置信区间,或者都不调整。xbias

另一方面,如果我不允许估计有偏差,我就不必进行偏差调整。也就是说,我将作为点估计,作为下限,作为 95% 的上限置信区间。我不确定这个间隔是否有意义......xx(xmeanx0.025)x+(x0.975xmean)

那么假设样本第 1 个百分位是对总体第 1 个百分位的有偏估计是否有意义如果不是,我的替代解决方案是否正确?

1个回答

对分布极端值的引导推断通常是可疑的。当引导 n-out-of-n 大小为的样本中的最小值或最大值时,您有您将重现您的样本极端观察的机会,同样大约的机会重现您的第二个极端观察,依此类推。你得到一个与尾部底层分布的形状几乎没有关系的确定性分布。此外,引导程序无法为您提供低于样本最小值的任何值,即使分布具有低于该值的支持(就像大多数连续分布(例如正态分布)一样)。n1(11/n)n1exp(1)=63.2%exp(1)exp(2)=23.3%

解决方案很复杂,并且依赖于来自极值理论的渐近线和少于 n 次观测的子采样)。n