我是统计学的初学者。(也是概率论)。我研究了指数分布,当我陷入以下问题时才开始做问题:
假设的指数分布的随机样本。确定的样本均值分布。
有人能告诉我如何解决这个问题吗?这是一个简单的(我的直觉说),但不幸的是我无法一步一步地写下事情。
我是统计学的初学者。(也是概率论)。我研究了指数分布,当我陷入以下问题时才开始做问题:
假设的指数分布的随机样本。确定的样本均值分布。
有人能告诉我如何解决这个问题吗?这是一个简单的(我的直觉说),但不幸的是我无法一步一步地写下事情。
样本均值为
因此, rv是变量的总和。这些变量具有参数为的指数分布,它们的总和为 gamma rv,参数和。
这与@Jon Egil 给出的答案并不矛盾,只是他的答案是一个取决于样本大小的近似值,而这个是精确分布。
中心极限定理 (CLT) 由 George Pólya 在 1920 年提出,是概率论的基本定理。粗略地说,它表明大量独立同分布(iid)变量的总和(或平均值)的分布将接近正态分布,而不管基础分布如何。
关于均值的点估计,显然,随着从分布中采样的变量越多,样本均值越来越接近潜在的真实均值。这符合弱大数定律。大没有明确的定义,但 30-50 通常被认为是一个合理的数字。
要建立直觉,请使用此 R 代码,尤其是样本大小(以下为 50):
# Central Limit Theorem
r = 2 # rate for exponential distribution
set.seed(100) # To ensure reproducability
i <- 1000 # number of sample averages.
# We need multiple averages to draw a distribution of means
n <- 5 # number of draws from the distribution. This is the N in CLT
s <- rep(0, i)
for(i in 1:i){
s[i] <- mean(rexp(n, rate=r)) # population size of 20 for
}
# Two plots vs normal distribution
par(mfrow=c(1,2))
qqnorm(s, main=paste("n=",n)); qqline(s, col="red")
curve(dnorm(x, mean(s), sd(s)), from=0, to=1, ylim=c(min(density(s)$y),max(density(s)$y)))
lines(density(s), col='red')
# Shapiro-Wilks normality test
shapiro.test(s)
另请参阅我的计算机上的这两次运行产生了以下结果:
目测清楚地显示正态分布的钟形曲线,因为 n 很大,而较小的 n 具有非常非正态的偏斜和尾部。
还要注意在 R 中可用的 Shapiro-Wilk 正态性检验:
shapiro.test(s)
在 n=5 和 n=50 时运行它会得到 n=5 的分数比 n=50 低得多,但是为了始终达到高于 0.05 的 p 值,一个常用的截止值,即使 n 为 50 也被证明太低了。
n p-value
5 < 2.2e-16
50 0.0008108
75 0.1061
在这些平局中,只有 n=75 通过了 Shapiro-Wilk 正态性检验。随机生成器的其他种子将产生其他结果。但总趋势将保持不变,n 越高意味着样本均值的正态分布越趋于正态。
这里有更正式的讨论。