在 RA Fisher 著名的女士品茶实验中,这位女士被告知有多少个牛奶优先/茶优先的杯子(8 个杯子中的每个杯子有 4 个)。这尊重了 Fisher 精确检验的固定边际总假设。
我想和我的朋友一起做这个测试,但这个想法让我印象深刻。如果这位女士真的能区分牛奶优先和茶优先杯子之间的区别,她应该能够计算出牛奶优先/茶优先杯子的边际总数以及哪些是哪些。
那么问题来了:如果 RA Fisher 没有告知女士先喝牛奶和先喝茶的杯子的总数,可以使用什么测试?
在 RA Fisher 著名的女士品茶实验中,这位女士被告知有多少个牛奶优先/茶优先的杯子(8 个杯子中的每个杯子有 4 个)。这尊重了 Fisher 精确检验的固定边际总假设。
我想和我的朋友一起做这个测试,但这个想法让我印象深刻。如果这位女士真的能区分牛奶优先和茶优先杯子之间的区别,她应该能够计算出牛奶优先/茶优先杯子的边际总数以及哪些是哪些。
那么问题来了:如果 RA Fisher 没有告知女士先喝牛奶和先喝茶的杯子的总数,可以使用什么测试?
有些人会争辩说,即使第二个边距不是设计固定的,它也很少包含关于女士辨别能力的信息(即它大约是辅助性的)并且应该以它为条件。精确的无条件检验(由Barnard首次提出)更为复杂,因为您必须计算一个有害参数的所有可能值的最大 p 值,即原假设下的常见伯努利概率。最近,有人提出在置信区间内最大化有害参数的 p 值:参见 Berger (1996),“More Powerful Tests from Confidence Interval p Values”,The American Statistician,50,4;使用这个想法可以构建具有正确大小的精确测试。
在 Edgington 的意义上,Fisher 精确检验也作为随机化检验出现:实验处理的随机分配允许检验统计量在这些分配的排列上的分布用于检验零假设。在这种方法中,女士的决定被认为是固定的(牛奶优先和茶优先杯子的边际总数当然通过排列保留)。
今天,我阅读了 RA Fisher 的“实验设计”的第一章,其中一个段落让我意识到了我的问题的根本缺陷。
也就是说,即使这位女士真的能区分牛奶优先和茶优先的杯子,我也永远无法“通过任何有限的实验”证明她有这种能力。出于这个原因,作为一个实验者,我应该从她没有能力(零假设)的假设开始,并尝试不同意这一点。并且原始的实验设计(Fisher 精确检验)是一个充分、有效和合理的程序。
以下是 RA Fisher 的“实验设计”的节选:
有人可能会争辩说,如果一个实验能够反驳受试者对两种不同类型的物体没有感官辨别力的假设,那么它就必须能够证明相反的假设,即她可以做出一些这样的辨别。但是,这最后一个假设,无论它是多么合理或正确,都不能作为零假设进行实验检验,因为它是不精确的。如果断言受试者的判断永远不会出错,我们再次拥有一个精确的假设,并且很容易看出这个假设可以通过一次失败来反驳,但永远无法通过任何有限数量的实验来证明.
Barnard 检验用于当在原假设下讨厌参数未知时。
然而,在女士品尝测试中,您可能会争辩说,在零假设下,讨厌的参数可以设置为 0.5(不知情的女士有 50% 的概率正确猜出杯子)。
然后,在原假设下,正确猜测的数量变为二项分布:猜测 8 个杯子,每个杯子的概率为 50%。
在其他情况下,您可能没有这个 50% 的零假设概率。如果没有固定的利润,您可能不知道该概率应该是多少。在这种情况下,您需要进行 Barnard 测试。
即使您对女士品茶测试进行 Barnard 测试,它仍然会变为 50%(如果结果都是正确的猜测),因为具有最高 p 值的讨厌参数是 0.5,并且会导致微不足道的二项式测试 (它实际上是两个二项式检验的组合,一个针对四个牛奶第一杯,一个针对四个茶第一杯)。
> library(Barnard)
> barnard.test(4,0,0,4)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 0
Outcome II 0 4
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)
> dbinom(8,8,0.5)
[1] 0.00390625
> dbinom(4,4,0.5)^2
[1] 0.00390625
下面是如何获得更复杂的结果(如果不是所有的猜测都是正确的,例如 2 对 4),那么计算什么是极端的和什么不是极端的变得有点困难
(还请注意,巴纳德的测试使用,在 4-2 结果的情况下,您可能认为不正确的有害参数 p=0.686,回答“先喝茶”的 50% 概率的 p 值为 0.08203125。当您考虑不同的区域时,这会变得更小,而不是基于 Wald 统计的区域,尽管定义区域并不那么容易)
out <- rep(0,1000)
for (k in 1:1000) {
p <- k/1000
ps <- matrix(rep(0,25),5) # probability for outcome i,j
ts <- matrix(rep(0,25),5) # distance of outcome i,j (using wald statistic)
for (i in 0:4) {
for (j in 0:4) {
ps[i+1,j+1] <- dbinom(i,4,p)*dbinom(j,4,p)
pt <- (i+j)/8
p1 <- i/4
p2 <- j/4
ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
}
}
cases <- ts < ts[2+1,4+1]
cases[1,1] = TRUE
cases[5,5] = TRUE
ps
out[k] <- 1-sum(ps[cases])
}
> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)
Barnard's Unconditional Test
Treatment I Treatment II
Outcome I 4 2
Outcome II 0 2
Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)