机器算法验证 - 伯努利分布可以近似为正态分布吗？ - 吾爱随笔录

伯努利分布可以近似为正态分布吗？

机器算法验证正态分布近似伯努利分布

2022-04-09 10:02:25

\sum_{i = 1}^{n} b e r n o u l l i (p) = b i n o m i a l (n, p) \approx N (n p, n p (1 - p)) = \sum_{i = 1}^{n} N (p, p (1 - p))

$\sum_{i=1}^n bernoulli(p) = binomial(n,p) \approx \mathcal N(np, np(1-p)) = \sum_{i=1}^n \mathcal N(p, p(1-p))$

我可以得出结论可以代表的近似值吗？ $\mathcal N(p, p(1-p))$ $bernoulli(p)$

特别是，给定二进制 RV的一个可能的朴素分解是。 $n$ $X_i$ $P(X_1, X_2, \ldots, X_n)$ $P(X_1) P(X_2) \ldots P(X_n)$

由于所有 RV 都是二进制的，因此它们可以建模为 Bernoulli RV。

如果我对联合的确切概率不感兴趣，我可以使用正态分布来近似每个伯努利变量吗？

2个回答

让我们分析一下错误。

该图以蓝色显示了各种伯努利变量的分布函数图，以红色显示了相应的正态分布。阴影区域显示功能明显不同的地方。 $(p)$

（为什么要绘制分布函数而不是密度函数？因为伯努利变量没有密度函数。对伯努利分布的良好连续逼近的密度在和的邻域中有巨大的尖峰。） $0$ $1.$

无论是多少，对于某些值，两个分布函数之间的差异都会很大。 $p$ $x$ 毕竟，伯努利分布函数有两个跳跃：它在 x=0 处跳跃，在x=1处再次正态分布函数会将这两个跳跃中较大的一个分成两部分，因此两个垂直差异中的较大者（最大误差）必须至少为事实上，它总是比这更大。 $1-p$ $x=0$ $p$ $x=1.$ $1/4.$

这是两个函数之间最大差异的图，因为它取决于 $p:$

当时，它永远不会小于因为概率都在和所以这是一个很大的错误。很难想象这种近似值可以接受的情况，除非或但为什么要使用正态分布呢？只需将这些值分别近似为和完全没有任何错误。 $0.341345,$ $p=1/2.$ $0$ $1,$ $x\lt 0$ $x\gt 1:$ $0$ $1,$

我认为您不能得出结论，N(p,p(1−p)) 可以表示伯努利(p) 的近似值。首先，对于伯努利变量，随机样本只能是0或1，另一方面，正常变量的范围可以是-inf到inf。其次，如果我们有一个均值 p 和方差 p(1-p) 的随机分布，一旦我们从这个分布中抽取大量样本并将它们相加，它们的总和分布也将遵循均值 np 和方差 np 的正态分布(1-p) 由于中心极限定理。当然，我们不能说随机分布代表伯努利（p）的近似值......

其它你可能感兴趣的问题

上一篇是否有任何工具可以测试趋向/远离平稳性的趋势？下一篇逻辑回归的u形？