伯努利分布可以近似为正态分布吗?

机器算法验证 正态分布 近似 伯努利分布
2022-04-09 10:02:25

i=1nbernoulli(p)=binomial(n,p)N(np,np(1p))=i=1nN(p,p(1p))

我可以得出结论可以代表的近似值吗?N(p,p(1p))bernoulli(p)

特别是,给定二进制 RV的一个可能的朴素分解nXiP(X1,X2,,Xn)P(X1)P(X2)P(Xn)

由于所有 RV 都是二进制的,因此它们可以建模为 Bernoulli RV。

如果我对联合的确切概率不感兴趣,我可以使用正态分布来近似每个伯努利变量吗?

2个回答

让我们分析一下错误。

该图以蓝色显示了各种伯努利变量的分布函数图,以红色显示了相应的正态分布。阴影区域显示功能明显不同的地方。(p)

图1

(为什么要绘制分布函数而不是密度函数?因为伯努利变量没有密度函数。对伯努利分布的良好连续逼近的密度在的邻域中有巨大的尖峰。 )01.

无论是多少,对于某些值,两个分布函数之间的差异都会很大。px 毕竟,伯努利分布函数有两个跳跃:它在 x=0 处跳跃,在x=1再次 正态分布函数会将这两个跳跃中较大的一个分成两部分,因此两个垂直差异中的较大者(最大误差)必须至少为 事实上,它总是比这更大。1px=0px=1.1/4.

这是两个函数之间最大差异的图,因为它取决于p:

图 2

时,它永远不会小于 因为概率都在所以这是一个很大的错误。很难想象这种近似值可以接受的情况,除非但为什么要使用正态分布呢?只需将这些值分别近似为完全没有任何错误。0.341345,p=1/2.01,x<0x>1:01,

我认为您不能得出结论,N(p,p(1−p)) 可以表示伯努利(p) 的近似值。首先,对于伯努利变量,随机样本只能是0或1,另一方面,正常变量的范围可以是-inf到inf。其次,如果我们有一个均值 p 和方差 p(1-p) 的随机分布,一旦我们从这个分布中抽取大量样本并将它们相加,它们的总和分布也将遵循均值 np 和方差 np 的正态分布(1-p) 由于中心极限定理。当然,我们不能说随机分布代表伯努利(p)的近似值......