当我使用工具变量回归时,我可以忽略负 R 平方值吗?

机器算法验证 r 拟合优度 r平方 工具变量 内生性
2022-04-16 13:56:18

我正在使用 R 程序中的“ivreg”命令运行工具变量回归。

我发现我所有与内生性相关的有效性测试都得到满足,除了 R 平方值是负的。

我可以知道我是否可以在不报告的情况下忽略这个负 R 平方值?

如果不是,解决此问题的替代方法是什么?代码如下:

    > Y_ivreg=ivreg(Y~x1+x2+x3+x4+x5+x6+x7|x2+x8+x9+x10+x5+x6+x7,data=DATA)
    > summary(Y_ivreg,diagnostics=TRUE)

    Call:
    ivreg(formula = Y ~ x1 + x2 + x3 + x4 + x5 + 
        x6 + x7 | x2 + x8 + x9 + x10 + 
        x5 + x6 + x7, data = DATA)

    Residuals:
          Min        1Q    Median        3Q       Max 
    -0.747485 -0.053721 -0.009349  0.044285  1.085256 

    Coefficients:
              Estimate  Std. Error  t value Pr(>|t|)    
 (Intercept)  0.0979178  0.0319244   3.067  0.00218 ** 
    x1        0.0008438  0.0004927   1.712  0.08691 .  
    x2        0.0018515  0.0009135   2.027  0.04277 *  
    x3       -0.0130133  0.0073484  -1.771  0.07667 .  
    x4       -0.0018486  0.0009552  -1.935  0.05303 .  
    x5       -0.0000294  0.0000126  -2.333  0.01971 *  
    x6        0.0018214  0.0008908   2.045  0.04096 *  
    x7       -0.0024457  0.0005488  -4.456 8.61e-06 ***

    Diagnostic tests:
                              df1  df2 statistic p-value    
    Weak instruments (x1)    3 3313   185.440  <2e-16 ***
    Weak instruments (x3)    3 3313  3861.526  <2e-16 ***
    Weak instruments (x4)    3 3313  3126.315  <2e-16 ***
    Wu-Hausman               3 3310     1.943   0.121    
    Sargan                   0   NA        NA      NA    
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

    Residual standard error: 0.1142 on 3313 degrees of freedom
    Multiple R-Squared: -0.009029,  Adjusted R-squared: -0.01116 
    Wald test: 4.231 on 7 and 3313 DF,  p-value: 0.0001168 

有一个与此问题和 ivregression 相关的 Stata 帖子链接供您参考: https ://www.stata.com/support/faqs/statistics/two-stage-least-squares/

1个回答

的,链接的 STATA 帖子用一句话回答了您的问题:

R2在 2SLS/IV 的上下文中确实没有统计意义。


怎么可能是负数?R2

维基百科有很好的可视化R2

维基百科

在左边,我们看到,通过使用均值 ( ) 作为预测获得:total sum of squaresy¯

total sum of squares=i=1n(yiy¯)2

在右边,我们看到,通过使用模型的预测 ( ) 获得:residual sum of squaresy^

residual sum of squares=i=1n(yiy^)2=i=1n(yi(β^0+j=1pβ^jxj))2

通常,,因为任何具有截距()的模型应该至少与左边的图像一样好(截距可能只是平均值)。R2=1residual sum of squarestotal sum of squares0β0

但是,如果您将工具变量回归解释为两阶段线性回归,则很容易说明为什么它最终可能为负。即,假设内生变量 ( )上进行回归,然后将预测值 ( ) 用作第二个中的协变量阶段:XZX^

Stage 1:X=Zδ+errorStage 2:y=X^β+error

由于,第二阶段最小化的误差与用于计算残差平方和的误差不同。因此,残差平方和不再需要小于总平方和。(更重要的是,变得毫无意义。)X^XR2