假设我们测试和组中和之间的 Pearson 相关性。相关性是否可能在 A 和 B 中均显,在合并两组数据时不显着?在这种情况下,您能否提供一个解释。
相关性在每组中显着但总体上不显着?
机器算法验证
相关性
2022-03-20 01:55:50
2个回答
是的,这是可能的,并且可能以各种方式发生。一个明显的例子是,当以某种反映 x 和 y 值的方式选择 A 和 B 的成员时。其他示例也是可能的,例如@Macro 的评论提出了另一种可能性。
考虑下面的示例,用 R 编写。x 和 y 是 iid 标准正态变量,但如果我根据 x 和 y 的相对值将它们分配到组,我会得到你命名的情况。在 A 组和 B 组内,x 和 y 之间存在很强的统计显着相关性,但如果忽略分组结构,则没有相关性。
> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)
Pearson's product-moment correlation
data: x and y
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.09292 0.03094
sample estimates:
cor
-0.03111
> cor.test(x[Group=="A"], y[Group=="A"])
Pearson's product-moment correlation
data: x[Group == "A"] and y[Group == "A"]
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4040 0.5414
sample estimates:
cor
0.4756
> cor.test(x[Group=="B"], y[Group=="B"])
Pearson's product-moment correlation
data: x[Group == "B"] and y[Group == "B"]
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3292 0.4744
sample estimates:
cor
0.4043
> qplot(x,y, color=Group)
一种可能性是,每个组中的效果可能会朝不同的方向发展,并且在您汇总它们时会被抵消。这也与当您在回归模型中遗漏重要的交互项时,主要影响如何产生误导有关。
例如,假设在组和预测变量之间的真实关系是:
在组中,
假设组成员分布使得那么,如果你边缘化组成员并通过以下方式计算E 你得到的总期望定律
因此,如果,并且不依赖于一点也不。因此,这两个组之间存在关系,但是当您将它们聚合时,没有关系。换句话说,对于人口中随机选择的个体,我们不知道其群体成员资格,平均而言,它们之间没有关系和. 但是,在每个组中都有。
任何价值的例子完美平衡每组内的效果大小也会导致这个结果 - 这只是这个玩具示例,使计算变得容易:)
注意:对于正态误差,线性回归系数的显着性等同于 Pearson 相关性的显着性,因此本示例重点说明了您所看到的情况。