有趣的问题。您的数据是伯努利,它是一个二进制分布,成功概率等于p. 您可以做的最简单的事情是从您的样本中计算成功的概率,并使用中心极限定理得出一个渐近的 95%置信区间。如果我们将成功的样本比例表示为p^然后是真实概率的区间p将会
p^± 1.96 ×p^( 1 -p^)n--------√
我必须强调,这不是一个概率区间,因为真正的参数p被认为是固定的,没有抽样分布。这个区间的长期解释是,如果你收集100样本并计算上述每个置信区间,然后其中 95 个将包含真实参数。
现在您还提到您想比较成功的概率。让我们使用索引1和2分别用于第一个和第二个样本。假设独立样本,上述过程的扩展将是计算置信区间
p1ˆ−p2ˆ±1.96×pˆ1(1−pˆ1)n1+pˆ2(1−pˆ2)n2−−−−−−−−−−−−−−−−−−−−−√
请注意,这个区间现在涉及总体概率的差异,即真实概率的差异。解释是完全一样的,尽管如此。收集 100 个样本(来自每个总体),计算置信区间,在 95 个案例中,您会发现它们包含总体差异。如果区间不包含,则您确定总体概率不相等0.
不过,这只是比较人口概率的一种方法。在实践中,这种方法可能不是您想要使用的方法。原因是这些间隔并不总是非常有用。相反,人们可能想要找到相对风险的区间p1p2或优势比p11−p1p21−p2. 这也可以使用渐近近似。如果您认为这会引起您的兴趣,这里有一个关于相对风险的相关问题
如何根据两个独立的置信区间计算相对风险