分类变量的偏相关和多元回归控制

机器算法验证 相关性 描述性统计
2022-03-24 04:35:23

我正在查看变量之间的线性关联XY带有一些控制变量Z=(Z1,Z2,Z3,)

一种方法是进行回归E(Y)=α0+α1X+βiZi看看α1.

另一种方法是计算偏相关ρXY.Z

我的第一个问题是哪个更合适?补充:从评论来看,它们是等效的但不同的演示文稿)

对于多元正态(X,Y,Z), 偏相关ρXY.Z将是一个更好的选择,因为它的价值可以告诉我们有多好XY关联,例如ρXY.Z=±1可以解释为XY控制后具有完美的线性关系Z.

如果有的话怎么样Zi是分类的吗?偏相关是否仍然适合衡量之间的关联XY控制Zi的?补充:通过将分类变量更改为虚拟变量然后对其进行控制是可以接受的,就像我们在回归中处理它们的方式一样)。当我学习偏相关时,它被用于多元正态分布变量;我不确定当违反数据的正态性(例如,高度偏斜)甚至连续性不是这种情况(例如,我们的控制变量之一是“出生地”)时,它是否仍然合适和有意义。偏相关的计算XY控制Z涉及皮尔逊相关ρXZρYZZ是分类的,这使得ρXY.Z看起来很奇怪。

此外,是否有任何稳健版本的偏相关(如肯德尔的τ/Spearman 等级相关性与 Pearson 相关性)?

从 ssdecontrol 引发:回归对分类预测变量“有效”且“有意义”,但相关性有时被认为不适用于分类数据。由于回归是偏相关的,我们有一个明显的悖论。

谢谢。

1个回答

在我看来,您问题中唯一未回答的部分是下面引用的部分:

此外,是否有任何稳健版本的偏相关(如肯德尔的 𝜏 τ /Spearman 的秩相关与 Pearson 的相关)?

与您可以拥有部分 Pearson 相关系数相同,您可以拥有部分 Spearman 相关系数以及 Kendall。请参阅下面的一些带有 ppcor 包的 R 代码,它可以帮助您进行部分相关。

library(ppcor)

set.seed(2021)
N <- 1000
X <- rnorm(N)
Y <- rnorm(N)
Z <- rnorm(N)

pcor.test(X, Y, Z, method='pearson')

你会得到一个估计0.01175714. 如果您对变量进行排名,那将等同于 Spearman 相关性。

pcor.test(rank(X), rank(Y), rank(Z), method='pearson')

这样你就得到了部分斯皮尔曼相关性0.008965395. 但你不必这样做,你只需在函数的参数中更改为 spearman 即可。

pcor.test(X, Y, Z, method='spearman')

现在我们开始,0.008965395再次。如果要进行部分 Kendall 相关,只需再次更改方法参数即可。

pcor.test(X, Y, Z, method='Kendall')

这一次,我们得到了部分 Kendall 相关性0.006344739.

如果稳健意味着不依赖于随机变量的分布,除其他外,最重要的是独立性的度量,我建议您阅读Mutual Information