抛硬币时应该使用二项式 cdf 还是普通 cdf?

机器算法验证 自习 正态分布 二项分布
2022-03-07 16:26:27

硬币需要进行公平性测试。50 次翻转后出现 30 个正面。假设硬币是公平的,你在 50 次翻转中至少得到 30 个正面的概率是多少?

根据我的老师的说法,解决这个问题的正确方法是

normalcdf(min = .6, max = ∞, p = .5, σ = sqrt(.5 * .5 / 50) = 0.0786

但是,我采用了这样的二项式累积分布函数

1 - binomcdf(n = 50, p = .5, x = 29) = 0.1013

我相信满足二项分布的标准:单个事件是独立的,只有两种可能的结果(正面与反面),问题的概率是恒定的(0.5),试验次数固定为 50 . 然而显然,这两种方法给出了不同的答案,并且模拟支持了我的答案(至少我运行了几次;显然,我不能保证你会得到相同的结果)。

我的老师是否错误地假设正态分布曲线也是解决这个问题的有效方法(从来没有说分布是正态的,但是n*pn*(1-p)都大于10),还是我对二项分布有误解?

3个回答

这是whuber和onestop的答案的插图。

连续性校正

红色为二项式分布,黑色为正态近似密度,蓝色Bin(50,0.5)N(25,12.5)P(Y>29.5)YN(25,12.5)

对于的红色条的高度很好地近似为要获得的良好近似值,您需要使用P(X=k)XBin(50,0.5)P(k12<Y<k+12)P(X30)P(Y>29.5)

(编辑)这是 (在 R 中由 获得)而 近似值是正确的。

P(Y>29.5)0.1015459,
1-pnorm(29.5,25,sqrt(12.5))
P(X30)0.1013194:

这称为连续性校正它允许您计算偶数“点概率”,如P(X=22)

P(X=22)=(5022)0.5220.5280.07882567,P(21.5<Y<22.5)0.23975010.16109940.07865066.

如果您使用连续性校正,正态分布会更接近二项式用这个作为你的例子,我得到 0.1015。由于这是作业,我将把它留给你填写细节。

考虑一下。在离散二项分布中,您有个别数字的实际概率。在不是这种情况的连续法线中,您需要一系列值。所以......如果你要近似单个值的概率,比如说X,从正常的二项式你会怎么做?查看二项分布的概率直方图,正态曲线覆盖在它上面。您实际上需要从 X ± 0.5 中进行选择,以捕获类似于 X 的二项式概率在正态近似下的情况。

现在将其扩展到当您选择分布的尾部时。当您使用二项式方法时,您选择的是整个值的概率(在您的情况下为 30)加上更高的所有值。因此,当您进行连续分布时,您必须确保捕获该值并选择少 0.5,因此连续分布的截止值为 29.5。