混杂因素、共线性和交互项之间有什么区别?

机器算法验证 回归 多重回归 相互作用 多重共线性 混杂
2022-04-04 07:12:10

这些术语让我感到困惑,因为它们似乎都暗示着某种相关性。

混杂因素:影响因变量和自变量

共线性:对我来说只是意味着独立变量之间的相关性

交互项:自变量的联合效应(但这不需要这些变量之间的相关性吗?)

1个回答

您对混杂和共线性的理解是正确的。请注意,在许多情况下,共线性实际上是指“完美共线性”,其中一个变量是一个或多个其他变量的线性组合,但在某些情况下,它只是指变量之间的“高相关性”。

当然,为了发生混淆,必须有一定程度的相关性,尽管由于上述原因,我会避免说“共线性”。

然而:

交互项:自变量的联合效应(但这不需要这些变量之间的相关性吗?)

“联合效应”是理解它的好方法,但它绝不需要变量之间的相关性。例如,考虑一个正交因子设计实验。

作为另一个示例,我们还可以通过对双变量数据的简单模拟来展示这一点,其中X1X2不相关但存在有意义的交互:

> set.seed(1)
> N <- 100
> X1 <- rnorm(N)
> X2 <- rnorm(N)
> cor(X1, X2)
[1] -0.0009943199   # X1 and X2 are uncorrelated
> 
> Y <- X1 * X2 + rnorm(N)
> lm(Y ~ X1 * X2) %>% summary()

Call:
lm(formula = Y ~ X1 * X2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.92554 -0.43139  0.00249  0.65651  2.60188 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03107    0.10439   0.298    0.767    
X1          -0.03352    0.12064  -0.278    0.782    
X2          -0.02822    0.10970  -0.257    0.798    
X1:X2        0.76032    0.14847   5.121 1.57e-06 ***