在多元线性回归中,为什么可能有一个非常显着的 F 统计量 (p<.001) 但在所有回归量的 t 检验中具有非常高的 p 值?
在我的模型中,有 10 个回归变量。一个的 p 值为 0.1,其余的均高于 0.9
要处理此问题,请参阅后续问题。
在多元线性回归中,为什么可能有一个非常显着的 F 统计量 (p<.001) 但在所有回归量的 t 检验中具有非常高的 p 值?
在我的模型中,有 10 个回归变量。一个的 p 值为 0.1,其余的均高于 0.9
要处理此问题,请参阅后续问题。
导致这种情况的自变量之间的相关性非常小。
要了解原因,请尝试以下操作:
绘制 50 组,每组 10 个向量 $(x_1, x_2, \ldots, x_{10})$,系数 iid 标准正态。
计算 $y_i = (x_i + x_{i+1})/\sqrt{2}$ 对于 $i = 1, 2, \ldots, 9$。这使得 $y_i$ 单独标准正常,但它们之间有一些相关性。
计算 $w = x_1 + x_2 + \cdots + x_{10}$。注意 $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$。
将一些独立的正态分布误差添加到 $w$。通过一些实验,我发现 $z = w + \varepsilon$ 和 $\varepsilon \sim N(0, 6)$ 效果很好。因此,$z$ 是 $x_i$ 加上一些误差的总和。它也是一些$y_i$ 加上相同误差的总和。
我们将 $y_i$ 视为自变量,将 $z$ 视为因变量。
这是一个此类数据集的散点图矩阵,$z$ 位于顶部和左侧,$y_i$ 依次排列。
当 $|ij|=1$ 时,$y_i$ 和 $y_j$ 之间的预期相关性为 $1/2$,否则为 $0$。实现的相关性范围高达 62%。它们在对角线旁边显示为更紧密的散点图。
查看 $z$ 对 $y_i$ 的回归:
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 9, 40) = 4.57
Model | 1684.15999 9 187.128887 Prob > F = 0.0003
Residual | 1636.70545 40 40.9176363 R-squared = 0.5071
-------------+------------------------------ Adj R-squared = 0.3963
Total | 3320.86544 49 67.7727641 Root MSE = 6.3967
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.184007 1.264074 1.73 0.092 -.3707815 4.738795
y2 | 1.537829 1.809436 0.85 0.400 -2.119178 5.194837
y3 | 2.621185 2.140416 1.22 0.228 -1.704757 6.947127
y4 | .6024704 2.176045 0.28 0.783 -3.795481 5.000421
y5 | 1.692758 2.196725 0.77 0.445 -2.746989 6.132506
y6 | .0290429 2.094395 0.01 0.989 -4.203888 4.261974
y7 | .7794273 2.197227 0.35 0.725 -3.661333 5.220188
y8 | -2.485206 2.19327 -1.13 0.264 -6.91797 1.947558
y9 | 1.844671 1.744538 1.06 0.297 -1.681172 5.370514
_cons | .8498024 .9613522 0.88 0.382 -1.093163 2.792768
------------------------------------------------------------------------------
F 统计量非常显着,但没有一个自变量是,即使没有对所有 9 个变量进行任何调整。
要查看发生了什么,请考虑 $z$ 与奇数 $y_i$ 的回归:
Source | SS df MS Number of obs = 50
-------------+------------------------------ F( 5, 44) = 7.77
Model | 1556.88498 5 311.376997 Prob > F = 0.0000
Residual | 1763.98046 44 40.0904649 R-squared = 0.4688
-------------+------------------------------ Adj R-squared = 0.4085
Total | 3320.86544 49 67.7727641 Root MSE = 6.3317
------------------------------------------------------------------------------
z | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
y1 | 2.943948 .8138525 3.62 0.001 1.303736 4.58416
y3 | 3.403871 1.080173 3.15 0.003 1.226925 5.580818
y5 | 2.458887 .955118 2.57 0.013 .533973 4.383801
y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501
y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112
_cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034
------------------------------------------------------------------------------
其中一些变量非常显着,即使使用 Bonferroni 调整。(通过查看这些结果可以说更多,但这会让我们偏离重点。)
这背后的直觉是 $z$ 主要取决于变量的子集(但不一定取决于唯一的子集)。这个子集的补集($y_2, y_4, y_6, y_8$)由于与子集本身的相关性(无论多么轻微),基本上没有添加关于 $z$ 的信息。
这种情况在时间序列分析中会出现。我们可以将下标视为时间。$y_i$ 的构造在它们之间引起了短程序列相关,就像许多时间序列一样。因此,我们通过定期对序列进行二次抽样而丢失的信息很少。
我们可以从中得出的一个结论是,当模型中包含太多变量时,它们会掩盖真正重要的变量。这方面的第一个迹象是高度显着的整体 F 统计量,伴随着单个系数的不那么显着的 t 检验。(即使某些变量单独显着,这并不意味着其他变量不显着。这是逐步回归策略的基本缺陷之一:它们成为这个掩蔽问题的牺牲品。)顺便说一下,方差膨胀因子在第一个回归范围内,从 2.55 到 6.09,平均值为 4.79:根据最保守的经验法则,刚好处于诊断某些多重共线性的边缘;远低于根据其他规则的阈值(其中 10 是上限)。
正如 Rob 所提到的,当您具有高度相关的变量时,就会发生这种情况。我使用的标准示例是根据鞋码预测重量。您可以通过左右鞋码同样准确地预测体重。但是在一起就不行了。
简要模拟示例
RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99
weights = 120 + rnorm(RSS, 10*RSS, 10)
##Fit a joint model
m = lm(weights ~ LSS + RSS)
##F-value is very small, but neither LSS or RSS are significant
summary(m)
##Fitting RSS or LSS separately gives a significant result.
summary(lm(weights ~ LSS))
当预测变量高度相关时,就会发生这种情况。想象一下只有两个相关性非常高的预测变量的情况。单独地,它们都与响应变量密切相关。因此,F 检验的 p 值较低(也就是说,预测变量一起在解释响应变量的变化方面非常重要)。但是每个预测变量的 t 检验具有很高的 p 值,因为在考虑到另一个预测变量的影响之后,没有太多可以解释的了。