机器算法验证 - 与指数分布有关 - 吾爱随笔录

与指数分布有关

机器算法验证可能性自习指数分布

2022-03-24 13:07:21

我是统计学的初学者。（也是概率论）。我研究了指数分布，当我陷入以下问题时才开始做问题：

假设的指数分布的随机样本。确定的样本均值分布。 $X_1, . . . , X_n$ $n$ $\beta$ $X_n$

有人能告诉我如何解决这个问题吗？这是一个简单的（我的直觉说），但不幸的是我无法一步一步地写下事情。

2个回答

样本均值为

\bar{X} = \sum_{i = 1}^{n} \frac{x_{i}}{n}

$\bar{X}=\sum_{i=1}^{n}{\frac{x_i}{n}}$

因此， rv是变量的总和。这些变量具有参数为的指数分布，它们的总和为 gamma rv，参数和。 $\bar{X}$ $y_i=x_i/n$ $\beta/n$ $n$ $\beta/n$

这与@Jon Egil 给出的答案并不矛盾，只是他的答案是一个取决于样本大小的近似值，而这个是精确分布。

改写以更好地回答原始问题，符合建设性意见。

中心极限定理 (CLT) 由 George Pólya 在 1920 年提出，是概率论的基本定理。粗略地说，它表明大量独立同分布（iid）变量的总和（或平均值）的分布将接近正态分布，而不管基础分布如何。

关于均值的点估计，显然，随着从分布中采样的变量越多，样本均值越来越接近潜在的真实均值。这符合弱大数定律。大没有明确的定义，但 30-50 通常被认为是一个合理的数字。

要建立直觉，请使用此 R 代码，尤其是样本大小（以下为 50）：

 # Central Limit Theorem

r = 2 # rate for exponential distribution

set.seed(100) # To ensure reproducability

i <- 1000 # number of sample averages. 
          # We need multiple averages to draw a distribution of means
n <- 5    # number of draws from the distribution. This is the N in CLT

s <- rep(0, i)
for(i in 1:i){
  s[i] <- mean(rexp(n, rate=r))  # population size of 20 for
}

# Two plots vs normal distribution
par(mfrow=c(1,2))

qqnorm(s, main=paste("n=",n)); qqline(s, col="red") 

curve(dnorm(x, mean(s), sd(s)), from=0, to=1, ylim=c(min(density(s)$y),max(density(s)$y)))
lines(density(s), col='red')


# Shapiro-Wilks normality test
shapiro.test(s)

另请参阅我的计算机上的这两次运行产生了以下结果：

首先 n=5

其次 n=50

目测清楚地显示正态分布的钟形曲线，因为 n 很大，而较小的 n 具有非常非正态的偏斜和尾部。

还要注意在 R 中可用的 Shapiro-Wilk 正态性检验：

shapiro.test(s)

在 n=5 和 n=50 时运行它会得到 n=5 的分数比 n=50 低得多，但是为了始终达到高于 0.05 的 p 值，一个常用的截止值，即使 n 为 50 也被证明太低了。

n     p-value
5    < 2.2e-16
50   0.0008108
75   0.1061

在这些平局中，只有 n=75 通过了 Shapiro-Wilk 正态性检验。随机生成器的其他种子将产生其他结果。但总趋势将保持不变，n 越高意味着样本均值的正态分布越趋于正态。

这里有更正式的讨论。

其它你可能感兴趣的问题

上一篇如何知道在神经网络中将偏差项放在哪里？下一篇GLMER 抽样随机效应