这些术语让我感到困惑,因为它们似乎都暗示着某种相关性。
混杂因素:影响因变量和自变量
共线性:对我来说只是意味着独立变量之间的相关性
交互项:自变量的联合效应(但这不需要这些变量之间的相关性吗?)
这些术语让我感到困惑,因为它们似乎都暗示着某种相关性。
混杂因素:影响因变量和自变量
共线性:对我来说只是意味着独立变量之间的相关性
交互项:自变量的联合效应(但这不需要这些变量之间的相关性吗?)
您对混杂和共线性的理解是正确的。请注意,在许多情况下,共线性实际上是指“完美共线性”,其中一个变量是一个或多个其他变量的线性组合,但在某些情况下,它只是指变量之间的“高相关性”。
当然,为了发生混淆,必须有一定程度的相关性,尽管由于上述原因,我会避免说“共线性”。
然而:
交互项:自变量的联合效应(但这不需要这些变量之间的相关性吗?)
“联合效应”是理解它的好方法,但它绝不需要变量之间的相关性。例如,考虑一个正交因子设计实验。
作为另一个示例,我们还可以通过对双变量数据的简单模拟来展示这一点,其中X1和X2不相关但存在有意义的交互:
> set.seed(1)
> N <- 100
> X1 <- rnorm(N)
> X2 <- rnorm(N)
> cor(X1, X2)
[1] -0.0009943199 # X1 and X2 are uncorrelated
>
> Y <- X1 * X2 + rnorm(N)
> lm(Y ~ X1 * X2) %>% summary()
Call:
lm(formula = Y ~ X1 * X2)
Residuals:
Min 1Q Median 3Q Max
-2.92554 -0.43139 0.00249 0.65651 2.60188
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03107 0.10439 0.298 0.767
X1 -0.03352 0.12064 -0.278 0.782
X2 -0.02822 0.10970 -0.257 0.798
X1:X2 0.76032 0.14847 5.121 1.57e-06 ***