众所周知,不应使用 bootstrap 来估计作为分位数的分布的最小值和最大值。
我听说过分位数不能自举的原因,因为分位数不是输入的足够平滑的函数。
是否可以给出或指出半严格的解释/证据?
众所周知,不应使用 bootstrap 来估计作为分位数的分布的最小值和最大值。
我听说过分位数不能自举的原因,因为分位数不是输入的足够平滑的函数。
是否可以给出或指出半严格的解释/证据?
问题更多在于分布的极值而不是分位数本身。
如果分布的真正最小值或最大值超出了数据的限制,那么对数据进行的任何引导重新采样都不会提供更接近真实最小值或最大值的估计值。在从均匀分布的样本中自助估计最大(或最小)阶数统计量的情况下,这个答案提供了关于这个问题有多大的更正式的描述。
尝试使用 bootstrap 估计极端分位数(如 1% 或 99%)也存在问题。这个答案提供了一个很好的解释。然后,自举样本中极值的分布更多地与重新采样的变幻莫测有关,而不是与感兴趣的总体的潜在分布有关。
中位数是一种常用的分位数,非常适合自举估计。此交叉验证页面详细介绍了该问题,并提供了一些指向进一步有用阅读的链接,这些链接应有助于考虑其他分位数的这些问题。