与指数分布有关

机器算法验证 可能性 自习 指数分布
2022-03-24 13:07:21

我是统计学的初学者。(也是概率论)。我研究了指数分布,当我陷入以下问题时才开始做问题:

假设的指数分布的随机样本确定的样本均值分布。X1,...,XnnβXn

有人能告诉我如何解决这个问题吗?这是一个简单的(我的直觉说),但不幸的是我无法一步一步地写下事情。

2个回答

样本均值为

X¯=i=1nxin

因此, rv是变量的总和。这些变量具有参数为的指数分布,它们的总和为 gamma rv,参数X¯yi=xi/nβ/nnβ/n

这与@Jon Egil 给出的答案并不矛盾,只是他的答案是一个取决于样本大小的近似值,而这个是精确分布。

改写以更好地回答原始问题,符合建设性意见。

中心极限定理 (CLT) 由 George Pólya 在 1920 年提出,是概率论的基本定理。粗略地说,它表明大量独立同分布(iid)变量的总和(或平均值)的分布将接近正态分布,而不管基础分布如何。

关于均值的点估计,显然,随着从分布中采样的变量越多,样本均值越来越接近潜在的真实均值。这符合弱大数定律。大没有明确的定义,但 30-50 通常被认为是一个合理的数字。

要建立直觉,请使用此 R 代码,尤其是样本大小(以下为 50):

 # Central Limit Theorem

r = 2 # rate for exponential distribution

set.seed(100) # To ensure reproducability

i <- 1000 # number of sample averages. 
          # We need multiple averages to draw a distribution of means
n <- 5    # number of draws from the distribution. This is the N in CLT

s <- rep(0, i)
for(i in 1:i){
  s[i] <- mean(rexp(n, rate=r))  # population size of 20 for
}

# Two plots vs normal distribution
par(mfrow=c(1,2))

qqnorm(s, main=paste("n=",n)); qqline(s, col="red") 

curve(dnorm(x, mean(s), sd(s)), from=0, to=1, ylim=c(min(density(s)$y),max(density(s)$y)))
lines(density(s), col='red')


# Shapiro-Wilks normality test
shapiro.test(s)

另请参阅我的计算机上的这两次运行产生了以下结果:

首先 n=5 n=5

其次 n=50 n=50

目测清楚地显示正态分布的钟形曲线,因为 n 很大,而较小的 n 具有非常非正态的偏斜和尾部。

还要注意在 R 中可用的 Shapiro-Wilk 正态性检验:

shapiro.test(s)

在 n=5 和 n=50 时运行它会得到 n=5 的分数比 n=50 低得多,但是为了始终达到高于 0.05 的 p 值,一个常用的截止值,即使 n 为 50 也被证明太低了。

n     p-value
5    < 2.2e-16
50   0.0008108
75   0.1061

在这些平局中,只有 n=75 通过了 Shapiro-Wilk 正态性检验。随机生成器的其他种子将产生其他结果。但总趋势将保持不变,n 越高意味着样本均值的正态分布越趋于正态。

这里有更正式的讨论