为什么可以获得显着的 F 统计量 (p<.001) 但不显着的回归量 t 检验?

机器算法验证 回归 假设检验 t检验 多重共线性 规范问题
2022-01-29 23:59:50

在多元线性回归中,为什么可能有一个非常显着的 F 统计量 (p<.001) 但在所有回归量的 t 检验中具有非常高的 p 值?

在我的模型中,有 10 个回归变量。一个的 p 值为 0.1,其余的均高于 0.9


要处理此问题,请参阅后续问题

4个回答

导致这种情况的自变量之间的相关性非常小。

要了解原因,请尝试以下操作:

  • 绘制 50 组,每组 10 个向量 $(x_1, x_2, \ldots, x_{10})$,系数 iid 标准正态。

  • 计算 $y_i = (x_i + x_{i+1})/\sqrt{2}$ 对于 $i = 1, 2, \ldots, 9$。这使得 $y_i$ 单独标准正常,但它们之间有一些相关性。

  • 计算 $w = x_1 + x_2 + \cdots + x_{10}$。注意 $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$。

  • 将一些独立的正态分布误差添加到 $w$。通过一些实验,我发现 $z = w + \varepsilon$ 和 $\varepsilon \sim N(0, 6)$ 效果很好。因此,$z$ 是 $x_i$ 加上一些误差的总和。它也是一些$y_i$ 加上相同误差的总和。

我们将 $y_i$ 视为自变量,将 $z$ 视为因变量。

这是一个此类数据集的散点图矩阵,$z$ 位于顶部和左侧,$y_i$ 依次排列。

散点图矩阵

当 $|ij|=1$ 时,$y_i$ 和 $y_j$ 之间的预期相关性为 $1/2$,否则为 $0$。实现的相关性范围高达 62%。它们在对角线旁边显示为更紧密的散点图。

查看 $z$ 对 $y_i$ 的回归:

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

F 统计量非常显着,但没有一个自变量是,即使没有对所有 9 个变量进行任何调整。

要查看发生了什么,请考虑 $z$ 与奇数 $y_i$ 的回归:

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

其中一些变量非常显着,即使使用 Bonferroni 调整。(通过查看这些结果可以说更多,但这会让我们偏离重点。)

这背后的直觉是 $z$ 主要取决于变量的子集(但不一定取决于唯一的子集)。这个子集的补集($y_2, y_4, y_6, y_8$)由于与子集本身的相关性(无论多么轻微),基本上没有添加关于 $z$ 的信息。

这种情况在时间序列分析中会出现。我们可以将下标视为时间。$y_i$ 的构造在它们之间引起了短程序列相关,就像许多时间序列一样。因此,我们通过定期对序列进行二次抽样而丢失的信息很少。

我们可以从中得出的一个结论是,当模型中包含太多变量时,它们会掩盖真正重要的变量。这方面的第一个迹象是高度显着的整体 F 统计量,伴随着单个系数的不那么显着的 t 检验。(即使某些变量单独显着,这并不意味着其他变量不显着。这是逐步回归策略的基本缺陷之一:它们成为这个掩蔽问题的牺牲品。)顺便说一下,方差膨胀因子在第一个回归范围内,从 2.55 到 6.09,平均值为 4.79:根据最保守的经验法则,刚好处于诊断某些多重共线性的边缘;远低于根据其他规则的阈值(其中 10 是上限)。

正如 Rob 所提到的,当您具有高度相关的变量时,就会发生这种情况。我使用的标准示例是根据鞋码预测重量。您可以通过左右鞋码同样准确地预测体重。但是在一起就不行了。

简要模拟示例

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

多重共线性

  • 正如您所注意到的,并且正如在上一个问题中所讨论的那样,高度的多重共线性是统计上显着的 $R^2$ 但静态不显着的预测变量的一个主要原因。
  • 当然,多重共线性不仅仅是一个绝对阈值。随着与焦点预测变量的相关性增加,回归系数的标准误差将增加。

多个几乎显着的预测因子

  • 即使您没有多重共线性,如果两个或多个单独的预测变量接近显着,您仍然可以获得非显着预测变量和整体显着模型,因此总体预测通过统计显着性阈值。例如,使用 0.05 的 alpha,如果您有两个 p 值为 0.06 和 0.07 的预测变量,那么如果整个模型的 p<.05,我不会感到惊讶。

当预测变量高度相关时,就会发生这种情况。想象一下只有两个相关性非常高的预测变量的情况。单独地,它们都与响应变量密切相关。因此,F 检验的 p 值较低(也就是说,预测变量一起在解释响应变量的变化方面非常重要)。但是每个预测变量的 t 检验具有很高的 p 值,因为在考虑到另一个预测变量的影响之后,没有太多可以解释的了。