这是个好主意,但这位女士知道每种类型有 4 杯茶。这对女士来说是一个有价值的信息,如果我们通过二项分布对过程进行建模,就会出错。问题是您要考虑的变量(每次试验的成功)不是独立且同分布的。
我认为您已经考虑过至少通过以下一种情况对流程进行建模:
案例 1:您研究4 个选定杯子中的成功次数。
在这种表示下,统计数据是 4 次试验的 4 次成功。在零值下,每个人都有 0.5 的概率是牛奶优先的。这在数学上是正确的,但这些概率不是独立的。
说明:如果 A、B 和 C 杯是错误的,那么最后一个很可能是好的,因为在剩下的 5 个杯子中,剩下 4 个先牛奶的杯子,只有一个后牛奶的杯子。
案例 2:您研究了8 个赠送的杯子中的成功次数。
在这种表示下,统计数据是 8 次试验中的 8 次成功。这也是非独立的问题。
说明:如果前7个杯子她判断好,最后一个杯子也判断好的概率是1。因为相对于实验设置,通过排除法,女士不可能7个杯子是对的,7个杯子是错的一。
用更数学的术语来说,对于这两种情况,P(successi)不独立于P(successj).
费舍尔通过将选择过程视为一个整体来避免这个问题,枚举成功选择的数量(嗯,只有一个)除以可能的选择数量(8 个中的 4 个 = 70 个)。尽管如此,还是有一个简单的原始公式考虑了非独立性,但不如 Fisher 解决方案漂亮:
P(success)=P(X1=1)×P(X2=1|X1=1)× P(X3=1|X1=1∩X2=1)× P(X4=1|X1=1∩X2=1∩X3=1)=4/8×3/7×2/6×1/5=1/70
二项式检验将是我刚刚编造的另一种设置的正确答案。
- 法官掷一枚公平的硬币,如果反了,他准备先喝奶的茶,如果反了,他准备先喝奶的茶。显然,这位女士不知道抛硬币的结果。
- 这位女士知道这个过程,并且必须判断提供哪种茶。
使用此设置,如您所描述的,二项式检验H0: 成功率 = 0.5,无疑是一个好方法。