机器算法验证 - 泊松分布的均值需要多大才能使用正态分布统计？ - 吾爱随笔录

泊松分布的均值需要多大才能使用正态分布统计？

机器算法验证分布正态分布泊松分布意思是方差稳定

2022-04-12 08:09:42

随着泊松分布的均值增加，泊松分布接近正态分布。我假设一旦泊松均值变得足够大，我们就可以使用正态分布统计。因此，一旦泊松分布的均值变得足够大，我们就可以开始说“68% 的分布将位于泊松均值的 1 个标准差以内”。

在我们开始使用正态分布统计之前，泊松分布的平均值需要多大？

3个回答

更新：正如@whuber 在他的评论中指出的那样，更好的方法是计算泊松的真实覆盖概率。该模拟虽然也有其用途，但并未揭示下图中看到的有趣模式。

泊位图

这是基于@whuber 的代码（请参阅他对此答案的第一条评论）：

f <- function(mu) ppois(mu + sqrt(mu), mu) - ppois(mu - sqrt(mu), mu) ## computing coverage probabilities as a function of the true mean
curve(f, from = 1, to = 2000, n = 300, main = "True Coverage Probabilities for Poisson", xlab = expression(lambda), ylab = "Probability")
abline(h = 0.6827, col = "red") ## coverage prob. for a Normal RV

这是做什么的：如果 $X \sim \textrm{Pois}(\lambda)$ 然后 $E(X) = \lambda$ 和 $V(X) = \lambda$ . 这意味着有问题的区间是 $I := (\lambda - \sqrt \lambda, \lambda + \sqrt \lambda)$ . 该函数f计算

P_{λ} (X \in I) = F_{X} (λ + \sqrt{λ}; λ) - F_{X} (λ - \sqrt{λ}; λ)

$\mathbb P_\lambda(X \in I) = F_X(\lambda + \sqrt \lambda; \lambda) - F_X(\lambda - \sqrt \lambda; \lambda)$ 在哪里

F_{X} (t; λ)

$F_X(t; \lambda)$ 是通过ppois函数获得的。

原始答案：这绝不是一个绝对的答案，但我认为您可能希望看到模拟。请注意，我使用的是大小样本 $n = 20000$ 因为您没有提到您关心样本量，所以我希望每个样本都反映渐近特性。

模拟表明，泊松随机变量 (RV) 的行为与正常 RV 的行为没有区别，直到大约 $\lambda \approx 1000$ 关于覆盖率和这种选择 $n$ . 我们还可以看到 Normal RV 的随机样本覆盖率的变化，即使它们都完全具有我们在总体水平上研究的特性。请注意，在此模拟中，我将随机样本与其样本均值和样本标准差进行比较，而不是总体均值和总体标准差。我选择这样做是因为我觉得这对于讨论从样本计算的统计数据的分布更有趣。

这是制作情节的代码。

set.seed(1)
lambda.seq <- round(seq(10, 2000, length = 300)) ## lambdas to try
res.norm <- res.pois <- numeric(length(lambda.seq)) ## these get the results
nsim <- 20000 ## number of observations at each iteration

for(i in 1:length(lambda.seq))
{
  sims <- rpois(nsim, lambda.seq[i]) ## simulating Poissons
  res.pois[i] <- mean(sims > mean(sims) - sd(sims) & sims < mean(sims) + sd(sims)) ## computing proportion of Poisson RVs within 1 SE of the mean

  sims <- rnorm(nsim, lambda.seq[i], lambda.seq[i]) ## simulating normals
  res.norm[i] <- mean(sims > mean(sims) - sd(sims) & sims < mean(sims) + sd(sims))
}

plot(res.pois ~ lambda.seq, pch = 19, col = "red", main = "1 SD Coverage Convergence of Poisson to Normal", xlab = expression(lambda), ylab = expression(paste("Proportion  within  ", mu, "  \u00b1  ", sigma, sep = "")))
points(res.norm ~ lambda.seq, pch = 19, col = "blue")
abline(h = .6827) ## this is the true coverage for a normal distribution
legend("topright", c("Poisson", "Normal"), pch = 19, col = c("red", "blue"), bty = "n")

这是另一个视角。假设您想用正常拟合近似泊松的 cdf 值。您没有指定所需的精度，所以我只举一个例子。假设您希望在所有点上都处于真实 cdf 的 0.01 范围内。

根据经验，如果 $\lambda$ 是泊松的平均值，我观察到 $\lambda \geq 44$ 通过将法线的均值和方差与泊松匹配并使用连续性校正，足以获得规定的精度。

要真正回答，我们需要知道您想做什么！例如，如果您想要一个置信区间，则可能需要比标准误差更多的值。但是为什么你想要一个正常的近似值？您可以直接从似然函数构造置信区间，这可能更好。

并且，请注意，对于泊松分布，方差等于期望值。所以随着增加 $\lambda$ （期望）方差也在增加。对于置信区间，您确实需要一个关键量（枢轴是数据和参数的函数，其分布不取决于参数），或者，如果这是不可能的（如在大多数离散分布情况下），至少具有恒定的期望和方差。

获得它的一种方法是使用方差稳定变换，在泊松情况下是平方根变换。因此，如果 $X$ 是泊松 ( $\lambda$ ）然后 $\sqrt{X}$ 方差约为 1/4。转换后的变量的正态近似通常效果更好，因为它更接近关键。

还可以查看帖子 GLM 与平方根数据转换

其它你可能感兴趣的问题

上一篇随机性测试 - randtests - 失败下一篇如何解释结构方程模型的修正指数输出？