相关变量的非参数符号检验

机器算法验证 假设检验 非参数
2022-03-28 09:39:47

当单个测量值可能相关时,我有一个关于符号测试的问题。让我从一些背景开始。假设我们有 4 个有机体(a、b、c、d),我们以两种不同的方式进行测量,比如 A 和 B。我们的数据可能如下所示

a = 3 用于测量 A 和 1 用于测量 B
b = 4 用于测量 A 和 3 用于测量 B
c = 0 用于 A 和 4 用于 B
d = 2 用于 A 和 0 用于 B

我们现在取 A 和 B 之间的差异:2,1,4,2. 看着我们得到模式的迹象+++. 我们想测试方法 A 和方法 B 之间是否有任何区别。采取:

H0(零假设)= A 的分布等于 B 的分布

在下面H0我们希望Pr(A>B)=Pr(B>A)=.5,因此任何模式+'沙的可能性相同。IE+很可能发生 +++等让U=数量+的(在我们的例子中U=3)。假设H0可以证明Pr(U3)=(1+4)/24=5/16=0.3125.

现在,假设 a 和 b 是强正相关的。因此并不是所有的组合+'沙's 的可能性相同。例如,人们不会期望方法 A 有 a > b 和方法 B 有 a < b。因此我们不会期望像这样的序列+..或者+..发生。考虑到这一点,假设H0事实证明Pr(U3)=3/8=0.375,即我们的 p 值增加。

现在我来回答我的问题:

如果不是 4 个有机体,而是 100 个有机体,并且还假设我对相关性的数量和每个相关性的大小有一个上限。有没有办法在 p 值上构造一个上限?

1个回答

根据您的情况的一种解释,根本不需要修改 p 值。

例如,假设一系列(未知)二元分布pi(x,y)治理AB对于每个有机体i. 那是,Pr(A=x,B=y)=pi(x,y)对于所有可能的结果(x,y)(A,B). 测试是否测量程序AB不同,一个合理的零假设是这些分布都是对称的:

H0:pi(x,y)=pi(y,x) for all i,x,y.

符号统计量(数量之间的差异+和数量结果)在此测试中仍然是合理的。(它实际上测试了原假设H0:Pr(A<B)=Pr(B<A).) 它的分布取决于关系的机会;即价值观ti=xpi(x,x)(每个生物一个i)。这个问题似乎根本没有考虑建立联系的可能性,表明他们的机会相当小。在任何情况下,零中的对称假设意味着有机体的机会i产生一个+符号等于有机体的机会i产生一个符号和关系不太可能的假设意味着这两个机会都接近1/2. 这意味着符号统计量的分布像往常一样是二项式的,尽管两者之间存在任何相关性(或缺乏相关性)AB.

如果存在相当大的联系机会,那么在您指定有关这些机会的某些信息之前,您似乎无法在量化界限方面取得任何进展。例如,如果您为ti你可以谈谈符号统计的分布。