何时使用(和不使用)三法则

机器算法验证 可能性 二项分布
2022-03-25 09:22:17

统计学中的三法则表明,如果一个事件是二项式分布的,并且在次试验中没有发生,那么它发生的最大机会大约是假设我们有一个轮盘赌桌,只有两个选项,红色或黑色。这两种情况发生的概率显然是 1/2。然而,假设我们在车轮转动 10 圈后看不到黑色。然后我们可能会决定推理,忽略分布的先验知识,黑色出现的机会最多为 3/10,这是不正确的。这是对规则的误用吗?如果是这样,为什么以及如何确定何时适合应用它。n3/n

2个回答
The rule of three in statistics states that if an event is binomially  
distributed and does not occur with in n trials the maximum chance of it     
occurring is approximately 3/n. 

不,这不是它所说的。它表示实际发生概率的 95% 置信区间约为 [0, 3/n]。那不是一回事。区间中包含的“发生机会”的最大值确实是 3/n,尽管区间内的哪个值最有可能的问题没有得到解答。

规则说:'猜测真正发生的机会是 3/n 或更小,大约 5% 的时间你会错。

Suppose we have a roulette table with only two options, red or black. The 
chance of either of these occurring is clearly 1/2. 

确切地说,因此不需要置信区间,因为“发生的机会”是已知的。另一方面,您可以使用这样的轮子测试规则提供的近似区间的覆盖率。

Suppose, however, that we don't see black for 10 turns of the wheel. 
We would then reason that the chance of black occurring is at most 3/10,     
which is not true. Is this a misapplication of the rule? If so, why, and 
how does one determine when it is proper to apply it.

这是对置信区间概念的误用,置信区间用于限制未知事物的合理值范围,并且在任何特定应用中,如果真实值已知,则不需要包含真实值。

来自维基百科,“3 规则”的一个例子被描述为“例如,一种止痛药在 1500 名人类受试者身上进行了测试,没有记录到不良事件。从 3 规则,可以得出 95 500 人中不到 1 人(或 3/1500)会经历不良事件的信心百分比。”

下面的推导帮助我从另一个角度理解了“三法则”。

假设n = 1500,最坏的可能情况是在n = 1501时发现不良事件,即p_ = 1/1501(=0.000666)。

p_的标准误差(SE)可以计算为p_*(1-p_)/n(=0.000666)的平方根,可以近似为1/1500(=0.000667),即SE~1/ n.

假设 p_(真实 p 的观察值)具有以 p 为中心的正态分布,那么我们将有 97.8% 的置信度(单边上限为 2 SE),如果我们重复采样,真实 p 将小于 1/n + 2*SE = 1/n + 2/n = 3/n (= 0.002)。

如果用p_值(=1/1501)计算上界的值,结果是0.001998,非常接近0.002。