来自均匀分布的随机样本的均值遵循什么分布?

机器算法验证 可能性 数理统计 意思是 均匀分布 中心极限定理
2022-03-04 05:56:55

例如,让X1,,Xn是一个随机样本f(x|θ)=1,θ1/2<x<θ+1/2. 清楚地,XiU(θ1/2,θ+1/2). 一些直觉会表明X¯f(x|θ)=1,θ1/2<x<θ+1/2. 但是,我认为这实际上并不正确。什么样的分布X¯跟随?

4个回答

首先,您可能想查看有关 Irwin-Hall 分布的 Wikipedia

除非n非常小A=X¯=1ni=1nXi,在哪里 Xi是独立的Unif(θ.5,θ+.5)拥有AaprxNorm(μ=θ,σ=1/12n).

[近似值非常适合n10.事实上,在计算的早期,除了疼痛算术之外,进行运算的成本很高,模拟标准正态随机变量的常用方法是评估Z=1=112Xi6,在哪里Xi生成为独立的标准制服。]

R中的以下模拟使用一百万个大小的样本n=12θ=5.

set.seed(2020)  # for reproducibility
m = 10^6;  n = 12;  th = 5
a = replicate(m, mean(runif(n, th-.5,th+.5)))
mean(a);  sd(a); 1/sqrt(12*n)
[1] 5.000153      # aprx 5
[1] 0.08339642    # aprx 1/12
[1] 0.08333333    # 1/12

因此均值和标准差与中心极限定理的结果一致。在 R 中,Shapiro-Wilk 正态性检验仅限于 5000 个观测值。我们展示了前 5000 个模拟样本均值的结果。这些观察结果符合正态分布。

shapiro.test(a[1:5000])

    Shapiro-Wilk normality test

data:  a[1:5000]
W = 0.99979, p-value = 0.9257

下面的直方图比较了模拟分布X¯与PDFNorm(μ=5,σ=1/12).

hdr = "Simulated Dist'n of Means of Uniform Samples: n = 12"
hist(a, br=30, prob=T, col="skyblue2", main=hdr)
 curve(dnorm(x, 5, 1/sqrt(12*n)), add=T, lwd=2)
 abline(v=5+c(-1,1)*1.96/sqrt(12*n), col="red")

在此处输入图像描述

这表明

P(1.96<X¯θ1/12n<1.96)=0.95,
所以一个非常好的近似 95% 的置信区间θ是形式(X¯±1.96/12n).

不,这不是统一的。直觉上,你会期望不确定性X¯减少为n增加。中心极限定理表明,如n增加,分布趋于正态分布。这意味着,你会有一个高峰θ, 它会缩小为n.

举一个简单的反例,如果n=2,X¯将呈三角形分布,其中心在θ,具有相同的限制。

Irwin-Hall 分布是总和的分布n均匀随机变量。因此,平均值的密度的解析表达式n均匀随机变量是

1n!k=0n(1)k(nk)(xk)+n1

通过改变这个表达,你得到你的密度。

这是使用傅立叶变换得到简单解决方案的一种情况。你的密度函数是rect(θ)用它的傅里叶变换sinc(f)(在哪里sinc(f)=sinπfπf明显的延续sinc(0)=1)。添加n具有该分布的变量导致对分布进行卷积n与自身的时间(除以n),因此得到的分布具有傅里叶变换(sinc(f))nn. 进行逆变换然后提供

cos(2πfθ)(sinc(f))nndf
. 与分段定义的函数相比θ域,这是一个单一的表达式,因此可以通过傅里叶域从这个表示中推导出函数的矩等属性。