样本分位数偏差的证明

机器算法验证 估计 分位数
2022-04-08 07:51:10

在进行一些模拟时,我意识到样本分位数是真实分位数的有偏估计。而且,根据我的模拟,一个可能非常有偏见的模拟。

我对这个结果感到惊讶,因为经验 CDF 没有偏见,但经过一些互联网研究,我发现这是真的

我试图弄清楚这种偏差来自哪里,但是使用样本分位数非常困难。有没有人证明过这种偏见(最好是量化)?

3个回答

以无分布的方式研究估计p

http://www.sciencedirect.com/science/article/pii/S016771520000242X

(可以在同一页面上找到 pdf)。作者专注于基于 ECDF 反演的分位数估计器。没有对基础分布进行假设(有限二阶矩除外),因此也包括离散分布。

一些亮点:

  • 偏差与基础分布成正比σ

  • 中心分位数的偏差比极端分位数小。的所有分布中,偏差在长度为的区间内振荡。引人注目的是,这不取决于样本大小σ<σp(1p)n

  • 对于,在所有标准化分布(均值 0,标准差 1)中,最差偏差与具有的概率原子 p 和概率原子的分布np>3p(1p)/p1pp/(1p)

只是补充一下这个旧帖子,ECDF 仅在高样本量时是无偏的。在 N 的低值时,它是有偏差的。以 N=1 的普通情况为例,ECDF 在样本值及以上取值 1。问问自己给出概率为 1 的基础分布的值是多少?

偏差实际上超过了 sqrt(2*pi)/(2N)*SD 或 1.25/N * SD,因此对于 5 的 N,这是 0.25 SD 偏差。

代替基于 k/N 的 ECDF,尝试 (k-0.5)/N 以获得无偏的 ECDF。这可能会给你无偏的样本分位数。它还确保了所有其他累积分布所享有的 ECDF(x)=1-ECDF(-x)。

在我看来,定义和使用的 ECDF 是一个巨大的误称。它使 Kolmogorov Smirnov、Lilliefors 和其他标准测试偏向低 N。

查看 Gilchrist “使用分位数函数进行统计建模”

存在一个唯一的真实样本分位数定义(这不是通常提出的定义)。见:http ://dx.doi.org/10.1155/2014/326579