我有一个来自人群的样本(大小为 250)。不知道人口分布。
主要问题:我想要人口的第一个百分位数的点估计,然后我想要围绕我的点估计的 95% 置信区间。
我的点估计将是样本 1 st -percentile。我表示它。
之后,我尝试围绕点估计建立置信区间。我想知道在这里使用引导程序是否有意义。我对引导程序非常缺乏经验,所以如果我没有使用适当的术语等,请原谅。
这是我尝试做到的方式。我从原始样本中抽取了 1000 个随机样本进行替换。我从他们每个人那里获得了第一个百分位数。因此,我有 1000 分 - “第一百分位数”。我看一下这 1000 个点的经验分布。我表示它的平均值。我将“偏差”表示如下:。我取 1000 个点中的第 2.5个百分位数和第 97.5个百分位数来获得我称之为原始样本第 1 个百分位数周围的 95% 置信区间的下限和上限。我表示这些点和。
剩下的最后一步是调整这个置信区间,使其在总体的第 1 个百分位附近,而不是在原始样本的第一个百分位附近。因此我取作为下端,作为上端总体第 1 个百分位数的点估计值周围的 95% 置信区间。这最后一个间隔是我正在寻找的。
在我看来,一个关键点是,将bootstrap用于第 1 个百分位数是否有意义,该百分位数相当接近于人口未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小值(或最大值)附近建立置信区间。
但也许这种方法有缺陷?请告诉我。
编辑:
稍微考虑一下这个问题后,我发现我的解决方案意味着以下内容:原始样本的第 1 个经验百分位可能是总体第 1 个百分位的有偏估计量。如果是这样,点估计应该进行偏差调整:。否则,偏差调整的置信区间将与偏差未调整的点估计值不兼容。我需要调整点估计和置信区间,或者都不调整。
另一方面,如果我不允许估计有偏差,我就不必进行偏差调整。也就是说,我将作为点估计,作为下限,作为 95% 的上限置信区间。我不确定这个间隔是否有意义......
那么假设样本第 1 个百分位是对总体第 1 个百分位的有偏估计是否有意义?如果不是,我的替代解决方案是否正确?