机器算法验证 - 费舍尔品茶，二项式精确检验 - 吾爱随笔录

费舍尔品茶，二项式精确检验

机器算法验证假设检验渔民精确测试

2022-03-20 14:43:47

请参阅著名的费舍尔关于生物学家B. Muriel Bristol-Roach辨别红茶味道的能力的实验（参见女士品茶）。

在这个实验中，费舍尔给了 Bristol-Roach 8 杯茶，其中 4 杯是先在杯中加入茶制成的，另外 4 杯是先在杯中加入牛奶制成的。Bristol-Roach 非常正确地选择了用相同方法制备的所有 4 个杯子。然后费舍尔量化了她偶然这样做的可能性，并得出结论认为她这样做太小了，不能只是偶然。

我想知道是否可以使用不同的方法，在这里使用精确的二项式检验， $H_0$ : 成功率 = 0.5

如果二项式精确检验成功拒绝，这是否足以得出 Bristol-Roach 确实有能力区分茶的结论？ $H_0$ ?

1个回答

这是个好主意，但这位女士知道每种类型有 4 杯茶。这对女士来说是一个有价值的信息，如果我们通过二项分布对过程进行建模，就会出错。问题是您要考虑的变量（每次试验的成功）不是独立且同分布的。

我认为您已经考虑过至少通过以下一种情况对流程进行建模：

案例 1：您研究4 个选定杯子中的成功次数。
在这种表示下，统计数据是 4 次试验的 4 次成功。在零值下，每个人都有 0.5 的概率是牛奶优先的。这在数学上是正确的，但这些概率不是独立的。
说明：如果 A、B 和 C 杯是错误的，那么最后一个很可能是好的，因为在剩下的 5 个杯子中，剩下 4 个先牛奶的杯子，只有一个后牛奶的杯子。

案例 2：您研究了8 个赠送的杯子中的成功次数。
在这种表示下，统计数据是 8 次试验中的 8 次成功。这也是非独立的问题。
说明：如果前7个杯子她判断好，最后一个杯子也判断好的概率是1。因为相对于实验设置，通过排除法，女士不可能7个杯子是对的，7个杯子是错的一。

用更数学的术语来说，对于这两种情况， $\newcommand{\success}{\rm success}P(\success_i)$ 不独立于 $P(\success_j)$ .

费舍尔通过将选择过程视为一个整体来避免这个问题，枚举成功选择的数量（嗯，只有一个）除以可能的选择数量（8 个中的 4 个 = 70 个）。尽管如此，还是有一个简单的原始公式考虑了非独立性，但不如 Fisher 解决方案漂亮：

\begin{aligned} P (s u c c e s s) & = P (X_{1} = 1) \times P (X_{2} = 1 | X_{1} = 1) \times \\ P (X_{3} = 1 | X_{1} = 1 \cap X_{2} = 1) \times \\ P (X_{4} = 1 | X_{1} = 1 \cap X_{2} = 1 \cap X_{3} = 1) \\ = 4 / 8 \times 3 / 7 \times 2 / 6 \times 1 / 5 \\ = 1 / 70 \end{aligned}

$\begin{align} P(\success) &= P(X_1=1)\times P(X_2=1|X_1=1)\times \\ &\quad\ \ P(X_3=1|X_1=1 \cap X_2=1)\times \\ &\quad\ \ P(X_4=1|X_1=1 \cap X_2=1 \cap X_3=1) \\ &= 4/8\times 3/7\times 2/6\times 1/5 \\ &= 1/70 \end{align}$

二项式检验将是我刚刚编造的另一种设置的正确答案。

法官掷一枚公平的硬币，如果反了，他准备先喝奶的茶，如果反了，他准备先喝奶的茶。显然，这位女士不知道抛硬币的结果。

这位女士知道这个过程，并且必须判断提供哪种茶。

使用此设置，如您所描述的，二项式检验 $H_0$ : 成功率 = 0.5，无疑是一个好方法。

其它你可能感兴趣的问题

上一篇随机梯度下降与在线梯度下降下一篇如果XX是总和为和之间的是有用的值吗？是YR2R2XX是Y