由于讨论时间很长,我已经对答案进行了回复。但是我改变了顺序。
置换检验是“精确的”,而不是渐近的(例如,与似然比检验相比)。因此,例如,即使无法计算在 null 下的均值差异分布,您也可以进行均值检验;您甚至不需要指定所涉及的分布。您可以设计一个在一组假设下具有良好功效的检验统计量,而不像完全参数化假设那样对它们敏感(您可以使用稳健但具有良好 ARE 的统计量)。
请注意,您给出的定义(或者更确切地说,您在此处引用的任何人给出的定义)并不普遍;有些人会称 U 为置换检验统计量(置换检验的作用不是统计量,而是您如何评估 p 值)。但是,一旦您进行置换测试并且您已将方向指定为“此值的极值与 H0 不一致”,则上述 T 的这种定义基本上就是您计算 p 值的方式——它只是实际比例置换分布至少与 null 下的样本一样极端(p 值的定义)。
因此,例如,如果我想对两样本 t 检验等均值进行(单尾)检验,我可以使我的统计量成为 t 统计量或 t 统计量本身的分子,或第一个样本的总和(这些定义中的每一个在其他样本中都是单调的,以组合样本为条件),或它们的任何单调变换,并且具有相同的检验,因为它们产生相同的 p 值。我需要做的就是看看我选择样本统计量所在的任何统计量的排列分布有多远(就比例而言)。上面定义的 T 只是另一个统计数据,与我可以选择的任何其他统计数据一样好(定义的 T 在 U 中是单调的)。
T 不会完全一致,因为这需要连续分布,而 T 必然是离散的。因为 U 和因此 T 可以将多个排列映射到给定的统计数据,所以结果不是等概率的,但它们具有“类似均匀”的 cdf**,但步骤不一定大小相等.
** (,并且在每次跳跃的正确限制处严格等于它——实际上可能有一个名称)F(x)≤x
对于合理的统计,当趋于无穷时,的分布接近均匀性。我认为开始理解它们的最好方法是在各种情况下进行。 nT
对于任何样本 X,T(X) 是否应该等于基于 U(X) 的 p 值?如果我理解正确,我在这张幻灯片的第 5 页上找到了它。
T 是 p 值(对于大 U 表示偏离零值且小 U 与其一致的情况)。请注意,分布取决于样本。所以它的分布不是“任何样本”。
那么使用置换检验的好处是在不知道 X 在 null 下的分布的情况下计算原始检验统计量 U 的 p 值?因此,T(X)的分布不一定是均匀的?
我已经解释过 T 不是统一的。
我想我已经解释了我认为置换测试的好处。其他人会提出其他优点(例如)。
“T 是 p 值(对于大 U 表示偏离零值且小 U 与之一致的情况)”是否意味着检验统计量 U 和样本 X 的 p 值是 T(X)?为什么?是否有一些参考来解释这一点?
您引用的句子明确指出 T 是 p 值,以及何时是。如果您能解释不清楚的地方,也许我可以说更多。至于为什么,请参阅p-value的定义(链接中的第一句)-它非常直接地遵循
这里有一个关于置换测试的很好的基本讨论。
--
编辑:我在这里添加一个小的排列测试示例;此 (R) 代码仅适用于小样本 - 您需要更好的算法来找到中等样本中的极端组合。
考虑针对单尾替代方案的置换测试:
H0:μx=μy (有些人坚持 *)μx≥μy
H1:μx<μy
* 但我通常避免使用它,因为它在尝试计算空分布时特别容易混淆学生的问题
关于以下数据:
> x;y
[1] 25.17 20.57 19.03
[1] 25.88 25.20 23.75 26.99
有 35 种方法可以将 7 个观测值分成大小为 3 和 4 的样本:
> choose(7,3)
[1] 35
如前所述,给定 7 个数据值,第一个样本的总和在均值差异上是单调的,因此我们将其用作检验统计量。所以原始样本的检验统计量为:
> sum(x)
[1] 64.77
现在这里是排列分布:
> sort(apply(combn(c(x,y),3),2,sum))
[1] 63.35 64.77 64.80 65.48 66.59 67.95 67.98 68.66 69.40 69.49 69.52 69.77
[13] 70.08 70.11 70.20 70.94 71.19 71.22 71.31 71.62 71.65 71.90 72.73 72.76
[25] 73.44 74.12 74.80 74.83 75.91 75.94 76.25 76.62 77.36 78.04 78.07
(不必对它们进行排序,我这样做只是为了更容易看到测试统计量是最后的第二个值。)
我们可以看到(在这种情况下通过检查)是 2/35,或者p
> 2/35
[1] 0.05714286
(请注意,只有在没有 xy 重叠的情况下,此处的 p 值才可能低于 0.05。在这种情况下,中没有绑定值。)TU

粉色箭头在 x 轴上表示样本统计量,在 y 轴上表示 p 值。