如何测试两组 Pearson 相关性之间的差异?

机器算法验证 假设检验 相关性 数据转换 皮尔逊-r 费雪变换
2022-04-09 08:26:39

假设我有两组 Pearson 相关系数——称它们为集合 A 和集合 B,它们的大小相同。如何系统地比较 A 和 B 中的相关性?例如,我想检验 A 小于 B 的假设——类似于双样本 t 检验,但这里的问题是这两个样本是相关系数的两个样本。

我做了一些研究,发现为此目的有一个 Fisher 的 Z 变换。但它只测试一个相关性与另一个我找不到一种方法来系统地测试一组相关性之间的差异。有没有这样的方法?还是我只能使用费舍尔方法比较每对相关性并以某种方式得出差异(如果有)?ρ1ρ2.

2个回答

只需对转换后的相关性进行 t 检验,就像您测试任何两组数据以比较它们的平均值一样。从技术上讲,该测试是对平均转换相关性的比较,但对于大多数目的而言,这不是问题。(首先,相关性的算术平均值有多大意义?可以说,转换后的相关系数是有意义的量!)


Fisher Z 变换 的全部意义在于使比较合法。的近二元正态分布中独立采样时, Fisher Z 变换样本相关性系数将接近正态分布,均值等于的变换值和方差的值如何。 这正是证明应用学生 t 检验(每组方差相等)或方差分析的合理性所需要的。

ρ(log(1+ρ)log(1ρ))/2
nρ,ρ1/(n3)ρ.

为了演示,我的各种二元正态分布中的样本,重复此次以获得每个样本相关性系数。为了使这些结果具有可比性,我从每个变换后的样本相关系数中减去了 ”,以便产生应该近似正态的分布,均值为零,并且均具有\sqrt{1/(50-3)}的相同标准差n=50ρ,50,00050,000ρρZ,1/(503)0.15. 为了比较,我在每个直方图上绘制了该正态分布的密度函数。

数字

您可以看到,在如此广泛的潜在相关性(极端为)中,Fisher 变换的样本相关性确实看起来像他们承诺的那样接近正态分布。0.95

对于那些可能担心极端情况的人,我将模拟扩展到作为参考)。转换后的分布仍然是正态分布,并且仍然具有承诺的方差:ρ=0.9999ρ=0

图 2

最后,小样本量的情况并没有太大变化。这是相同的模拟,只有双变量正态值的样本:n=8

图 3

明显有一点点偏向不太极端的值,标准偏差似乎比预期的要小一些,但这些变化是如此之小以至于无关紧要。

使用 2 样本 t 检验的问题可能是相关性不是正态分布的。因此,您可以使用非参数检验,例如 Wilcoxon。或者你可以做一个排列测试。