机器算法验证 - 女士品茶的力量实验 - 吾爱随笔录

女士品茶的力量实验

机器算法验证假设检验统计能力渔民精确测试

2022-03-05 01:04:05

在著名的费舍尔实验中，可观察量是正确猜测的杯子的数量 $k$ 有两种杯子 $A$ 和 $B$ . 考虑到测试的大小，通常计算临界区域以拒绝零假设（女士随机猜测）是很有趣的 $\alpha$ . 使用超几何分布很容易做到这一点。以同样的方式，我可以计算给定关键区域的测试大小。

另一个问题是：在给定替代假设的情况下，如何计算检验的功效？例如，假设女士能够在单杯上以概率正确猜测 $p=90\%$ ( $P(\text{guess} A|\text{true} A)=P(\text{guess } B|\text{true } B)=0.9$ ）。什么是测试的力量，假设杯子的总数等于 $N=8$ 和一种杯子的总数 $n=N/2=4$ ? （不幸地）那位女士知道 $n$ .

换句话说：什么是分布 $k=$ （备择假设下正确杯子的数量）如果女士知道有 $n$ 一种杯子？

2个回答

在替代方案下，女士不是随机猜测，但“不随机猜测”涵盖了无限种不同的情况。她可能总是完美地猜测，或者她可能只比随机猜测做得好一点......在一般情况下，甚至没有一个单变量“尺度”不是随机的（所以我们甚至没有权力曲线，除非我们限制她可能给出的非随机响应的种类）。

因此，为了计算幂，我们必须非常具体地说明它是如何非随机的（以及它在特定方式中的非随机性）。

例如，我们可以假设，她对每杯牛奶的味道有多少感觉，就像是先加入牛奶一样——一个“牛奶优先”指数，它是一个随机变量 $(-\infty,\infty)$ 当首先添加牛奶时，它具有不同（更高）的平均值 - 例如，我们可能会假设它是正常的或逻辑的，具有平均值 $\mu_0$ 和方差 $\sigma^2=1/\omega^2$ ( $\omega^2$ 被称为“精确度”）当牛奶最后加入时，意味着 $\mu_1$ 和方差 $\sigma^2$ 当首先添加牛奶时（实际上，一个更简单但更具限制性的假设可能是设置，例如， $\mu_1=-\mu_0=1$ 所以现在一切都是一个变量的函数，即精度）。因此，对于这些参数的任何给定值，我们可以计算她得到所有 8 杯正确的概率（她经历的四个最小的“牛奶优先”值与四个牛奶第二杯相关联）；如果精确计算对我们来说太难了，我们可以模拟到任何所需的精度。[在假定非随机性仅是一个变量的函数的情况下，我们将有一个幂曲线——每个参数值的幂值。]

这是她如何表现“优于随机”的一种特定模型，我们可以使用它指定参数并获得功率值。

我们当然可以假设除此之外的许多其他形式的非随机性。

在备择假设下，正确猜测次数的分布遵循非中心超几何分布，该分布根据优势比进行参数化，即女士在事实上茶实际上是首先添加的，而不是实际上首先添加牛奶（或相反）。如果优势比为 1，则我们得到中心超几何分布。

让我们看看这是否有效。我将使用 R 进行说明，使用MCMCpack具有dnoncenhypergeom()计算（非中心）超几何分布密度的功能包。它具有x正确猜测次数的参数（注意：这是在两种条件之一下的正确猜测次数，例如，当真正首先添加茶时）、参数n1、n2和m1四个边距中的三个，psi以及真正的优势比。当真实优势比为 1 时，让我们计算x等于 0 到 4（所有边距等于 4）的密度：

install.packages("MCMCpack")
library(MCMCpack)
sapply(0:4, function(x) dnoncenhypergeom(x, n1=4, n2=4, m1=4, psi=1))

这产生：

[1] 0.01428571 0.22857143 0.51428571 0.22857143 0.01428571

因此，在零假设下，女士有 1.43% 的机会做出 8 次正确猜测（即，她正确猜测了首先添加茶的所有 4 个杯子，因此她也正确猜测了首先添加牛奶的所有 4 个杯子）。这实际上是费舍尔认为足以拒绝零假设的证据数量。

问题中指定的概率可用于计算优势比，即 $(.90/(1-.90)) / (.10/(1-.10)) = 81$ （IE， $\text{odds}(\text{guess}A|\text{true}A) / \text{odds}(\text{guess}A|\text{true}B)$ ）。现在这位女士正确猜出所有 8 个杯子的可能性有多大（即，她会正确猜出所有 4 个杯子首先添加茶的位置，因此也正确猜出首先添加牛奶的 4 个杯子）？

dnoncenhypergeom(4, n1=4, n2=4, m1=4, psi=81)

这产生：

[1] 0.8312221

所以功率大约是83%。

其它你可能感兴趣的问题

上一篇对数逐点预测密度的定义和计算下一篇低效随机数生成器的真实示例