相关性在每组中显着但总体上不显着?

机器算法验证 相关性
2022-03-20 01:55:50

假设我们测试组中之间的 Pearson 相关性。相关性是否可能在 A 和 B 中均在合并两组数据时不显着?在这种情况下,您能否提供一个解释。xyAB(x,y)AB

2个回答

是的,这是可能的,并且可能以各种方式发生。一个明显的例子是,当以某种反映 x 和 y 值的方式选择 A 和 B 的成员时。其他示例也是可能的,例如@Macro 的评论提出了另一种可能性。

考虑下面的示例,用 R 编写。x 和 y 是 iid 标准正态变量,但如果我根据 x 和 y 的相对值将它们分配到组,我会得到你命名的情况。在 A 组和 B 组内,x 和 y 之间存在很强的统计显着相关性,但如果忽略分组结构,则没有相关性。

在此处输入图像描述

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

一种可能性是,每个组中的效果可能会朝不同的方向发展,并且在您汇总它们时会被抵消这也与当您在回归模型中遗漏重要的交互项时,主要影响如何产生误导有关。

例如,假设在组和预测变量之间的真实关系是:Ayixi

E(yi|xi,Group A)=1+xi

在组中,B

E(yi|xi,Group B)=1xi

假设组成员分布使得那么,如果你边缘化组成员并通过以下方式计算E 你得到的总期望定律

P(Group A)=1P(Group B)=p
E(yi|xi)

E(yi|xi)=E(E(yi|xi,Group))=p(1+xi)+(1p)(1xi)=p+pxi+1xip+pxi=1xi(2p1)

因此,如果p=1/2,E(yi|xi)=1并且不依赖于xi一点也不。因此,这两个组之间存在关系,但是当您将它们聚合时,没有关系。换句话说,对于人口中随机选择的个体,我们不知道其群体成员资格,平均而言,它们之间没有关系xiyi. 但是,在每个组中都有。

任何价值的例子p完美平衡每组内的效果大小也会导致这个结果 - 这只是这个玩具示例,使计算变得容易:)

注意:对于正态误差,线性回归系数的显着性等同于 Pearson 相关性的显着性,因此本示例重点说明了您所看到的情况。