为什么使用二项式的正态近似?

机器算法验证 正态分布 二项分布 近似
2022-03-25 19:40:39

在学校里,我被教导了二项式的正态逼近,有人建议我可以在某些条件下有效地使用它,因为它可以“更容易计算”。

我知道如果我使用纸质桌子会更方便。当我的所有计算都使用计算机完成时,使用正态近似还有优势吗?使用近似值进行代数运算或微积分是否更容易?有哪些优势示例?

我不知道正确的基准测试是什么,但也许这给出了一个想法:

> benchmark(rbinom(1, 1, .5), replications=1000000)
               test replications elapsed relative user.self sys.self user.child
1 rbinom(1, 1, 0.5)      1000000   3.593        1     3.476    0.156          0
  sys.child
1         0
> benchmark(rnorm(1), replications=1000000)
      test replications elapsed relative user.self sys.self user.child
1 rnorm(1)      1000000   3.724        1     3.564      0.2          0
  sys.child
1         0
2个回答

我知道在实践中没有理由使用二项分布的正态近似。有多种精确算法对于一般用途来说已经足够好了,这些是你在使用 R、SciPy 等的二项式 RNG 时得到的。我能想到的唯一充分理由是在统计类是你可以用它来说明中心极限定理。

中心极限定理提供了为什么在足够大的样本量中法线可以逼近二项式的原因。足够大取决于成功参数 p。当 p=0.5 时,二项式是对称的,因此当二项式可能高度偏斜时,样本量不需要像 p=0.95 那样大。此外,当应用连续性校正时,您可以获得更好的近似值。

关于您在计算机上计算二项式概率的问题,计算机可以快速计算这些概率,因此您真的不需要正态近似值。