计算正面概率位于给定区间内的概率

机器算法验证 可能性 置信区间 二项分布
2022-04-13 12:02:41

假设你掷硬币的情况下得到nxx<n

你有什么把握说硬币在随机抛掷过程中出现正面的概率介于之间()?U1U20<u1<u2<1

例如,如果我抛硬币 500 次,正面朝上 240 次,那么我可以说正面朝上的概率在 0.45 到 0.55 之间的概率/置信度是多少?

2个回答

如果正面概率已知

如果已知正面概率,那么您不是在询问置信区间(查看此处此处了解定义和更多详细信息),而是询问分布分位数如果你掷硬币次并观察到 n 次正面,那么掷硬币可以用由和掷正面概率参数化的二项分布来描述。如果您问次抛掷中观察到或更多正面的概率是多少?” ,你会问累积分布函数nxnnpxn

Pr(Xx)=FX(x)=q

quantile 函数回答了相反的问题,即对于给定的值,满足x 的值是多少?” xPr(Xx)=qq,

FX1(q)=x

更准确地说,由于离散分布的累积分布函数是阶跃函数,因此我们需要一个广义逆分布函数

FX1(q)=inf{xR:FX(x)q}

二项分布没有封闭形式的分位数函数,但大多数统计软件都允许您进行数值计算(例如qbinomR 中的函数)。对于像二项式这样的离散分布,它也可以“手动”计算,因为您可以计算每个,然后简单地选择于感兴趣的概率。qixi=0,1,2,,nqi

如果正面概率未知

如果,如后面评论中所述,我们正在处理“其属性完全未知”的假设硬币,那么这是一个不同的问题。的二项式分布,但“未知属性”可以理解为假设正面概率是一个随机变量正如amoebaXi'an在下面的评论中所注意到的,这可以假设为贝叶斯问题,就beta-binomial 模型而言。Xp

由于是随机的并且可以是任何东西,我们假设它是一个“均匀”先验,即参数的beta 分布如果我们多次抛硬币,那么我们可以更新我们的先验以获取更多信息。由于 beta 是二项分布的共轭先验和分位数感兴趣的可以从参数化的后验beta 分布计算pα=β=1α=α+number of headsβ=β+number of tailsαβ

使用理论分位数可以很容易地获得感兴趣的区间。在这种情况下,可能会获得两种不同的间隔:

  1. 正面数量的区间,可以从后验预测分布计算,在这种情况下是beta-二项分布,或x

  2. 可以从 beta 分布计算的可能值的区间。p

如上所述,可以在看到任何来自由 \alpha = \beta = 1 参数化的先验分布的数据之前计算间隔看到一些数据并对其进行更新之后,从参数化的后验分布计算间隔。每次观察新数据时,您都可以更新后验数据,以使您的估计越来越精确。α=β=1αβ

假设硬币翻转是独立的,正面的数字具有均值 np 和方差 np(1-p) 的二项分布,其中 n 是样本大小,p 是真正的成功概率。要构建区间,您首先要指定置信水平(通常为 95%)。您可以使用所谓的 Clopper-Pearson 方法计算精确二项式的置信区间。如果样本量很大,例如您提出的 500 作为示例,那么您可以使用正态近似来构造区间。如果区间包含 0.5,则您不能拒绝您拥有公平硬币的假设。如果 0.5 位于区间之外,您会得出结论,硬币有偏差,显着性水平等于 1 - 置信水平,置信水平以比例表示。