如何建立只有二进制测试结果的置信区间?

机器算法验证 置信区间
2022-04-18 01:04:18

如果除了实验的成功和失败次数之外我没有其他信息,那么建立置信区间的最明智的方法是什么?

是否可以做出一些假设并建立置信区间?

这是因为我对来自不同诊所的医疗结果的信息有限,他们只提供了接受特定治疗的患者人数以及被认为治疗成功的患者人数。

我想建立某种置信区间来比较它们,因为有些患者的人数很少,有些患者的人数要多得多,但除了这些数字我不知道其他任何事情。

例如,诊所 A 会说,在 180 名患者中,95 名患者成功完成了该手术,而诊所 B 在 498 名患者中成功了 250 名。

编辑:我想知道成功的真实概率的 95% 概率区间。

1个回答

有趣的问题。您的数据是伯努利,它是一个二进制分布,成功概率等于p. 您可以做的最简单的事情是从您的样本中计算成功的概率,并使用中心极限定理得出一个渐近的 95%置信区间。如果我们将成功的样本比例表示为p^然后是真实概率的区间p将会

p^±1.96×p^(1p^)n

我必须强调,这不是一个概率区间,因为真正的参数p被认为是固定的,没有抽样分布。这个区间的长期解释是,如果你收集100样本并计算上述每个置信区间,然后其中 95 个将包含真实参数。

现在您还提到您想比较成功的概率。让我们使用索引12分别用于第一个和第二个样本。假设独立样本,上述过程的扩展将是计算置信区间

p1^p2^±1.96×p^1(1p^1)n1+p^2(1p^2)n2

请注意,这个区间现在涉及总体概率的差异,即真实概率的差异。解释是完全一样的,尽管如此。收集 100 个样本(来自每个总体),计算置信区间,在 95 个案例中,您会发现它们包含总体差异如果区间不包含,则您确定总体概率不相等0.

不过,这只是比较人口概率的一种方法。在实践中,这种方法可能不是您想要使用的方法。原因是这些间隔并不总是非常有用。相反,人们可能想要找到相对风险的区间p1p2或优势比p11p1p21p2. 这也可以使用渐近近似。如果您认为这会引起您的兴趣,这里有一个关于相对风险的相关问题

如何根据两个独立的置信区间计算相对风险