假设我有一个由 3 个变量组成的多变量(几个自变量)回归。这些变量中的每一个都有一个给定的系数。如果我决定引入第 4 个变量并重新运行回归,3 个原始变量的系数会改变吗?
更广泛地说:在多变量(多个自变量)回归中,给定变量的系数是否受另一个变量的系数影响?
假设我有一个由 3 个变量组成的多变量(几个自变量)回归。这些变量中的每一个都有一个给定的系数。如果我决定引入第 4 个变量并重新运行回归,3 个原始变量的系数会改变吗?
更广泛地说:在多变量(多个自变量)回归中,给定变量的系数是否受另一个变量的系数影响?
添加到模型中,则 回归模型中的参数估计(例如)将发生变化:
如果上述任何一个不相关,则添加新变量时估计的 beta 不会改变。请注意,它们在总体中是否不相关(即或\)是无关紧要的。重要的是两个样本相关性都恰好是。这在实践中基本上不会出现这种情况,除非您使用的是实验数据,其中变量被操纵以使它们在设计上不相关。
另请注意,参数更改的量可能没有太大意义(这至少部分取决于您的理论)。此外,它们可以改变的量是上述两个相关性大小的函数。
另一方面,将这种现象视为“给定变量的系数[被]受另一个变量的系数影响”是不正确的。相互影响的不是贝塔。这种现象是统计软件用来估计斜率参数的算法的自然结果。想象一下由和引起的情况,它们又相互关联。如果模型中只有,则由于的一些变化将不恰当地归因于。这意味着有偏见;这称为遗漏变量偏差。
从数学上讲,系数可能不会改变,但即使所有自变量相互独立,实际数据也不可能完全没有变化。但是,在这种情况下,变化(截距除外)将趋于 0:
set.seed(129231)
x1 <- rnorm(100)
x2 <- rnorm(100)
x3 <- rnorm(100)
x4 <- rnorm(100)
y <- x1 + x2 + x3 + x4 + rnorm(100, 0, .2)
lm1 <- lm(y~x1+x2+x3)
coef(lm1)
lm2 <- lm(y~x1+x2+x3+x4)
coef(lm2)
然而,在现实世界中,自变量通常是相互关联的。在这种情况下,向方程添加第 4 个变量会改变其他系数,有时会改变很多。
然后有可能的相互作用....但这是另一个问题。
一般来说,是的,添加一个变量几乎总是会改变早期的系数。
事实上,这本质上是辛普森悖论的原因,因为省略了协变量,系数可能会改变,甚至符号相反。
为了不发生这种情况,我们需要新变量与以前的变量正交。这通常发生在设计的实验中,但不太可能发生在自变量模式未计划的数据中。