为什么零差异不进入 Wilcoxon 符号排序检验的计算中?

机器算法验证 假设检验 威尔克森符号秩 配对比较
2022-03-31 23:19:43

Wilcoxon 符号排序检验告诉我们配对数据之间的中值差异是否可以为零。通过计算统计量、z 分数并将其与临界值进行比较来执行测试。

令我震惊的是,我们

从计算统计量的过程中丢弃所有具有相同值的对

维基百科我们在第2步:

排除对 为减少的样本量。|x2,ix1,i|=0Nr

在其余的计算中Nr

引用消息来源之一说:

在 Wilcoxon 过程的大多数应用中,此时将之间的差异为零的情况排除在考虑之外,因为它们没有提供有用的信息,然后将剩余的绝对差异从最低到最高排序,并列在适当的地方包括等级。XAXB

然后作者继续以与 Wikipedia 文章中相同的方式进行计算。

我试图查看原始Wilcoxon 的文章,但他似乎没有提到相同的值对。

我认为这是疯狂的原因是:

好的,相同的值对不会改变统计数据的值,但它们会改变 z-score想象一下有对的样本,而在对中,第二个值更高,而在所有剩余的对中,值相同。根据上面提到的文章,我们应该丢弃这对,因为它们“没有提供有用的信息”,只考虑剩下的对。但是那确实提供了有用的信息他们尖叫着支持零假设。10100010101000101010100010

拜托,你能解释一下如何正确地进行测试吗?

1个回答

它与检验的假设有关,在该假设下,检验统计量在零下的分布被推导出来。

假设变量是连续的。

因此,平局的概率为 0 ...,这使得计算给定样本量的零下检验统计量的排列分布成为可能。

如果该假设不成立,您仍然可以进行测试,但是如果您要获得测试统计量的零分布,则必须尝试根据绑定值的模式(或更容易,模拟)。

更简单的选择是只考虑未绑定的值。

进一步注意,观察关系不是“支持无效的证据”,它只包含缺乏反对它的证据。对于离散分布,一系列非零替代方案可能会产生联系,而不仅仅是零点本身。

要做的“正确”事情是不要使用假设不满足假设的数据连续分布的测试。如果你没有那个,你必须做一些事情来处理那个失败。

我相信,对未绑定数据进行调节可以保留显着性水平所需的属性,而以某种方式包含关系则不会。我们可以通过模拟检查。