您要问的主题是多重共线性。您可能想阅读分类在 CV 下的一些主题多重共线性标签。上面链接的@whuber 的答案特别值得您花时间。
断言“如果两个预测变量相关并且都包含在模型中,则一个将是微不足道的”的断言是不正确的。如果变量有实际影响,则变量显着的概率是多个因素的函数,例如影响的大小、误差方差的大小、变量本身的方差、数据量你有,以及模型中其他变量的数量。变量是否相关也是相关的,但它不会覆盖这些事实。考虑以下简单的演示R
:
library(MASS) # allows you to generate correlated data
set.seed(4314) # makes this example exactly replicable
# generate sets of 2 correlated variables w/ means=0 & SDs=1
X0 = mvrnorm(n=20, mu=c(0,0), Sigma=rbind(c(1.00, 0.70), # r=.70
c(0.70, 1.00)) )
X1 = mvrnorm(n=100, mu=c(0,0), Sigma=rbind(c(1.00, 0.87), # r=.87
c(0.87, 1.00)) )
X2 = mvrnorm(n=1000, mu=c(0,0), Sigma=rbind(c(1.00, 0.95), # r=.95
c(0.95, 1.00)) )
y0 = 5 + 0.6*X0[,1] + 0.4*X0[,2] + rnorm(20) # y is a function of both
y1 = 5 + 0.6*X1[,1] + 0.4*X1[,2] + rnorm(100) # but is more strongly
y2 = 5 + 0.6*X2[,1] + 0.4*X2[,2] + rnorm(1000) # related to the 1st
# results of fitted models (skipping a lot of output, including the intercepts)
summary(lm(y0~X0[,1]+X0[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X0[, 1] 0.6614 0.3612 1.831 0.0847 . # neither variable
# X0[, 2] 0.4215 0.3217 1.310 0.2075 # is significant
summary(lm(y1~X1[,1]+X1[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X1[, 1] 0.57987 0.21074 2.752 0.00708 ** # only 1 variable
# X1[, 2] 0.25081 0.19806 1.266 0.20841 # is significant
summary(lm(y2~X2[,1]+X2[,2]))
# Estimate Std. Error t value Pr(>|t|)
# X2[, 1] 0.60783 0.09841 6.177 9.52e-10 *** # both variables
# X2[, 2] 0.39632 0.09781 4.052 5.47e-05 *** # are significant
两个变量之间的相关性在第一个示例中最低,在第三个示例中最高,但在第一个示例中两个变量都不显着,在最后一个示例中两者都显着。在所有三种情况下,影响的大小是相同的,并且变量的方差和误差应该是相似的(它们是随机的,但来自具有相同方差的总体)。我们在这里看到的模式主要是由于我为每种情况操纵了 s。 ñ
解决您的问题需要理解的关键概念是方差膨胀因子(VIF)。VIF 是回归系数的方差比变量与模型中的所有其他变量完全不相关时的方差大多少。请注意,VIF 是一个乘法因子,如果所讨论的变量不相关,则 VIF=1。对 VIF 的简单理解如下:您可以拟合一个模型,从模型中的所有其他变量(例如 ) ,并获得多个。的 VIF 为1。假设的 VIF为X1X2R2X11/(1−R2)X110的回归系数的抽样分布的方差将比与模型中的所有其他变量完全不相关时 的方差大X110×X1
考虑一下如果同时包含两个相关变量与仅包含一个相关变量会发生什么是相似的,但比上面讨论的方法稍微复杂一些。这是因为不包括变量意味着模型使用较少的自由度,这会改变残差方差和由此计算的所有内容(包括回归系数的方差)。此外,如果未包含的变量确实与响应相关联,则由于该变量导致的响应方差将包含在残差方差中,使其大于其他情况。因此,有几件事同时发生变化(变量是否与另一个变量相关,以及残差方差),删除/包含另一个变量的精确效果将取决于这些变量的权衡方式。
了解 VIF 后,以下是您问题的答案:
- 因为如果回归系数的抽样分布的方差与模型中的其他变量相关,它的方差会更大(VIF 的一个因子),所以 p 值将高于(即,不显着),否则.
- 如前所述,回归系数的方差会更大。
- 一般来说,如果不求解模型,这很难知道。通常,如果两个中只有一个是显着的,那么它将是与具有更强二元相关性的那个。 Y
- 预测值及其方差如何变化是相当复杂的。这取决于变量的相关程度以及它们与数据中的响应变量相关联的方式。关于这个问题,它可能会帮助您在这里阅读我的答案:多元回归中“控制”和“忽略”其他变量之间有区别吗?