样本中位数的中心极限定理

机器算法验证 正态分布 数理统计 采样 中位数 中心极限定理
2022-01-19 00:43:05

如果我计算从同一分布中提取的足够多的观测值的中位数,中心极限定理是否表明中位数的分布将接近正态分布?我的理解是,大量样本的均值是这样,但中位数也是如此吗?

如果不是,样本中位数的基本分布是什么?

4个回答

关键思想是中位数的抽样分布用分布函数表示很简单,但用中值表示比较复杂。一旦我们了解了分布函数如何将值重新表示为概率并再次返回,就很容易推导出中位数的精确抽样分布。需要对分布函数在其中位数附近的行为进行一点分析,以表明这是渐近正态的。

(同样的分析适用于任何分位数的抽样分布,而不仅仅是中位数。)

我不会在这个阐述中试图严谨,但如果你愿意的话,我会以很容易以严谨的方式证明的步骤来执行它。


直觉

这些是一个包含 70 个热原子气体原子的盒子的快照:

图1

在每张图像中,我找到了一个位置,显示为一条红色垂直线,它将原子分成两个相等的组,位于左侧(绘制为黑点)和右侧(白点)之间。这是位置的中位数:35 个原子位于其左侧,35 个位于其右侧。中位数发生变化是因为原子在盒子周围随机移动。

我们对这个中间位置的分布感兴趣。通过颠倒我的过程来回答这样的问题:让我们首先在某处画一条垂直线,例如在$x$位置。一半原子位于$x$左侧,一半位于其右侧的概率是多少?左边的原子单独有$x$的机会在左边。右边的原子单独有$1-x$的机会在右边。假设他们的位置在统计上是独立的,那么机会就会成倍增加,给出$x^{35}(1-x)^{35}$来表示这种特定配置的机会。将70 美元的原子分成两部分,可以获得等效的配置35 美元的元素件。将这些数字添加到所有可能的此类拆分中,就有机会

$${\Pr}(x\text{ 是中位数}) = C x^{n/2} (1-x)^{n/2}$$

其中$n$是原子总数,$C$与将$n$个原子分成两个相等的子组的数量成正比。

该公式将中位数的分布标识为Beta $(n/2+1, n/2+1)$分布

现在考虑一个形状更复杂的盒子:

图 2

中位数再次变化。因为盒子在中心附近很低,所以那里的体积不大:左半部分原子(再次是黑色的)占据的体积发生了微小变化——或者,我们不妨承认这些图中左侧的区域- 对应于中位数水平位置的较大变化。事实上,因为盒子的一个小水平部分所对的面积与那里的高度成正比,所以中位数的变化除以盒子的高度。这导致这个盒子的中位数比方形盒子的变化更大,因为这个盒子在中间要低得多。

简而言之,当我们根据面积(左右)测量中位数的位置时,原始分析(对于方形框)保持不变。 如果我们坚持根据水平位置测量中值,那么盒子的形状只会使分布复杂化。当我们这样做时,面积和位置表示之间的关系与盒子的高度成反比。

从这些图片中可以学到更多东西。很明显,当(任何一个)盒子中的原子很少时,它们中的一半很可能会意外地聚集在两边很远的地方。随着原子数量的增加,这种极端不平衡的可能性会降低。为了跟踪这一点,我拍摄了“电影”——一个长系列的 5000 帧——为弯曲的盒子填充了$3$,然后是$15$,然后是$75$,最后是$375$原子,并记录了中位数。以下是中位数位置的直方图:

图 3

显然,对于足够多的原子,它们的中值位置的分布开始看起来呈钟形并变窄:这看起来像是中心极限定理的结果,不是吗?


定量结果

当然,“盒子”描述了一些分布的概率密度:它的顶部是密度函数图 (PDF)。因此,面积代表概率。$n$个点随机且独立地放置在一个框内并观察它们的水平位置是从分布中抽取样本的一种方法。(这就是拒绝抽样背后的想法。

下一张图将这些想法联系起来。

图 4

这看起来很复杂,但实际上非常简单。这里有四个相关的图:

  1. 上图显示了分布的 PDF 以及一个大小为 $n$的随机样本。大于中位数的值显示为白点;小于中位数的值以黑点表示。它不需要垂直比例,因为我们知道总面积是统一的。

  2. 中间图是同一分布的累积分布函数:它使用高度来表示概率。它与第一个图共享其水平轴。它的纵轴必须从$0$$1$,因为它代表概率。

  3. 左图是为了横向阅读:它是 Beta $(n/2+1, n/2+1)$分布的 PDF。它显示了盒子中的中值将如何变化,当中值是根据中间左侧和右侧的区域来衡量时(而不是通过其水平位置来衡量)。如图所示,我从这个 PDF 中绘制了 16 美元的随机点,并用水平虚线将它们连接到原始 CDF 上的相应位置:这就是如何将体积(在左侧测量)转换为位置(在顶部测量,中心和底部图形)。其中一个点实际上对应于上图中显示的中位数;我画了一条垂直的实线来表明这一点。

  4. 底部图是中位数的采样密度,由其水平位置测量。 它是通过将面积(在左图中)转换为位置来获得的。转换公式由原CDF的倒数给出:这简直就是逆CDF的定义(换句话说,CDF 将位置转换为左侧区域;逆 CDF 将区域转换回位置。)我绘制了垂直虚线,显示左侧图中的随机点如何转换为底部图中的随机点. 这个从一个区域到另一个位置的阅读过程告诉我们如何从一个区域到另一个位置。

$F$为原始分布(中间图)的 CDF, $G$为 Beta 分布的 CDF。要找到中位数位于某个位置$x$左侧的机会,首先使用$F$获取框内$x$左侧的区域:这就是$F(x)$本身。左边的 Beta 分布告诉我们一半原子位于这个体积内的机会,给出$G(F(x))$:这是中间位置的 CDF 。要找到它的 PDF(如下图所示),求导数:

$$\frac{d}{dx}G(F(x)) = G'(F(x))F'(x) = g(F(x))f(x)$$

其中$f$是 PDF(上图),$g$是 Beta PDF(左图)。

这是任何连续分布的中位数分布的精确公式。(在解释时要小心,它可以应用于任何分布,无论是否连续。)


渐近结果

$n$非常大并且$F$在其中位数处没有跳跃时,样本中位数必须在分布的真实中位数$\mu$附近紧密变化。 还假设 PDF $f$在$\mu$附近是连续的,则前面公式中的 $f(x)$与$f(\mu)给出的$\mu,$处的值相比不会有太大变化。 此外,$F$从那里的价值也不会有太大变化:对于一阶订单,

$$F(x) = F\left(\mu + (x-\mu)\right) \约 F(\mu) + F^\prime(\mu)(x-\mu) = 1/2 + f(\mu)(x-\mu).$$

因此,随着$n$的增大,近似值不断提高,

$$g(F(x))f(x) \约 g\left(1/2 + f(\mu)(x-\mu)\right) f(\mu).$$

这只是 Beta 分布的位置和规模的变化。$f(\mu)$的重新缩放将其方差除以$f(\mu)^2$(最好是非零!)。顺便说一句,Beta $(n/2+1, n/2+1)$的方差非常接近$n/4$

这种分析可以看作是Delta 方法的一种应用。

最后,对于大的$n$,Beta $(n/2+1, n/2+1)$大约是 Normal 有很多方法可以看到这一点;也许最简单的方法是查看其 PDF 在$1/2$附近的对数:

$$\log\left(C(1/2 + x)^{n/2}(1/2-x)^{n/2}\right) = \frac{n}{2}\log\left (1-4x^2\right) + C' = C'-2nx^2 +O(x^4).$$

(常数$C$$C'$只是将总面积归一化为单位。)通过$x,$的三阶然后,这与方差$1/(4n) 的 Normal PDF 的对数相同。$ (通过使用特征或累积量生成函数而不是 PDF 的对数,这个论点变得严格。)

综上所述,我们得出结论

  • 样本中位数的分布方差约为$1/(4 nf(\mu)^2)$

  • 对于大的$n$ ,它大约是 Normal

  • 所有假设 PDF $f$在中位数$\mu.$处是连续且非零的

如果您根据指标变量工作(即$Z_i = 1$如果$X_i \leq x$$0$否则),您可以直接将中心极限定理应用于$Z$的平均值,并使用Delta 方法,将其转换为$F_X^{-1}(\bar{Z})$的渐近正态分布,这反过来意味着你得到$X$的固定分位数的渐近正态分布。

因此,不仅是中位数,还有四分位数、第 90 个百分位数……等等。

松散地说,如果我们在足够大的样本中讨论第q个样本分位数,我们会得到它近似具有正态分布,平均第q个总体分位数$x_q$和方差$q(1-q )/(nf_X(x_q)^2)$

因此,对于中位数($q = 1/2$),足够大样本的方差约为$1/(4nf_X(\tilde{\mu})^2)$

当然,你需要一路上的所有条件,所以它并不适用于所有情况,但对于人口分位数的密度为正且可微的连续分布等,......

此外,它不适用于极端分位数,因为 CLT 不会在那里发挥作用(Z 的平均值不会渐近正态)。对于极值,您需要不同的理论。


编辑:whuber 的批评是正确的;如果$x$是人口中位数而不是样本中位数,这将起作用。需要修改参数才能真正正常工作。

@EngrStudent 启发性的答案告诉我们,当分布是连续的和离散的分布时,我们应该期待不同的结果(“红色”图,其中样本中位数的渐近分布看起来不像正态,对应于分布二项式(3)、几何(11)、超几何(12)、负二项式(14)、泊松(18)、离散均匀(22)。

确实如此。当分布是离散的时,事情就会变得复杂。我将提供绝对连续案例的证明,基本上只是详细说明@Glen_b 已经给出的答案,然后我将讨论一下当分布离散时会发生什么,还为任何对潜水感兴趣的人提供最近的参考在。

绝对连续分布考虑具有分布函数 (cdf) $F_X(x) = P(X_i\le x)$和密度函数$F'
的 iid 绝对连续随机变量$\{X_1,...X_n\}$的集合_X(x)=f_X(x)$定义$Z_i\equiv I\{X_i\le x\}$其中$I\{\}$是指标函数。因此$Z_i$是一个伯努利 rv,其中 $$E(Z_i) = E\left(I\{X_i\le x\}\right) = P(X_i\le x)=F_X(x),\;\ ; \text{Var}(Z_i) = F_X(x)[1-F_X(x)],\;\; \forall 我$$

$Y_n(x)$是这些 iid Bernoullis 的样本均值,对于固定$x$定义为 $$Y_n(x) = \frac 1n\sum_{i=1}^nZ_i$$ 这意味着 $$E [Y_n(x)] = F_X(x),\;\; \text{Var}(Y_n(x)) = (1/n)F_X(x)[1-F_X(x)]$$ 中心极限定理适用,我们有

$$\sqrt n\Big(Y_n(x) - F_X(x)\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\right) $$

注意$Y_n(x) = \hat F_n(x)$即不是经验分布函数。通过应用“Delta 方法” ,我们可以得到在兴趣点处具有非零导数$g'(t)$的连续可微函数$g(t)$ ,我们得到

$$\sqrt n\Big(g[\hat F_n(x)] - g[F_X(x)]\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)] \cdot\left(g'[F_X(x)]\right)^2\right) $$

现在,选择$g(t) \equiv F^{-1}_X(t),\;\; t\in (0,1)$其中$^{-1}$表示反函数。这是一个连续且可微的函数(因为 $F_X(x)$是),并且根据反函数定理,我们有

$$g'(t)=\frac {d}{dt}F^{-1}_X(t) = \frac 1{f_x\left(F^{-1}_X(t)\right)}$ $

将这些结果插入到$g$中,我们得到 delta 方法派生的渐近结果

$$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - F^{-1}_X(F_X(x))\Big) \rightarrow_d \mathbb N\left(0, \frac {F_X(x)[1-F_X(x)]}{\left[f_x\left(F^{-1}_X(F_X(x))\right)\right]^2} \right) $ $

和简化,

$$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - x\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X( x)]}{\left[f_x(x)\right]^2} \right) $$

.. 对于任何固定的$x$现在设置$x=m$,即总体的(真实)中位数。然后我们有$F_X(m) = 1/2$并且对于我们感兴趣的情况,上述一般结果变为

$$\sqrt n\Big(F^{-1}_X(\hat F_n(m)) - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m )\right]^2} \right) $$

但是$F^{-1}_X(\hat F_n(m))$收敛到样本中位数$\hat m$这是因为

$$F^{-1}_X(\hat F_n(m)) = \inf\{x : F_X(x) \geq \hat F_n(m)\} = \inf\{x : F_X(x) \ geq \frac 1n \sum_{i=1}^n I\{X_i\leq m\}\}$$

不等式的右侧收敛到$1/2$并且最终$F_X \geq 1/2$的最小$x$是样本中位数。

所以我们得到

$$\sqrt n\Big(\hat m - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right) $$ 这是绝对连续分布的样本中位数的中心极限定理。

离散分布
当分布是离散的(或当样本包含关系时),有人认为样本分位数的“经典”定义,因此中位数的定义,首先可能会产生误导,因为理论概念是用来衡量一个人试图用分位数衡量的东西。
无论如何,已经模拟出在这个经典定义(我们都知道的那个)下,样本中位数的渐近分布是非正态分布的离散分布。

样本分位数的另一种定义是使用“中间分布”函数的概念,定义为 $$F_{mid}(x) = P(X\le x) - \frac 12P(X=x) $$

通过中间分布函数的概念定义样本分位数可以看作是一种概括,它可以涵盖作为特殊情况的连续分布,也可以涵盖不那么连续的分布。

对于离散分布的情况,除其他结果外,已发现通过该概念定义的样本中位数具有渐近正态分布,具有...精细的方差。

其中大部分是最近的结果。参考文献是Ma, Y.、Genton, MG 和 Parzen, E. (2011)。离散分布的样本分位数的渐近特性。统计数学研究所年鉴,63(2),227-243。,在那里人们可以找到讨论和链接到较早的相关文献。

我喜欢 Glen_b 给出的分析答案。这是一个很好的答案。

它需要一张图片。我喜欢图片。

以下是对该问题的回答中的弹性领域:

  • 世界上有很多发行版。里程可能会有所不同。
  • 充足有不同的含义。对于理论的反例,有时需要一个反例才能满足“足够”。为了使用二项式不确定性来证明低缺陷率,可能需要数百或数千个样本。

对于标准法线,我使用了以下 MatLab 代码:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

我得到了以下图作为输出:

在此处输入图像描述

那么为什么不对其他 22 个左右的“内置”分布执行此操作,除了使用概率图(直线意味着非常正常)?

在此处输入图像描述

这是它的源代码:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

当我看到分析证明时,我可能会想“理论上它们都可能适合”,但当我尝试它时,我可以用“有很多方法不能很好地工作,通常涉及离散或高度约束价值观”,这可能让我在将理论应用于任何花钱的事情时要更加小心。

祝你好运。