如何解释二次项

机器算法验证 多重回归 解释 回归系数 非线性回归 二次型
2022-04-10 09:13:26

我正在回答练习考试问题,并且在二次项上遇到问题。谁能给我一个快速的总结

1)为什么有时会包含它们?

2)如何解释它们?

关于 2)具体而言,您将如何解释系数的符号?

3)如果我们绘制了一条拟合值曲线,并且曲线在 20 年时达到最大值,我将如何解释?大于 20 年的值是否与响应变量的下降有关?

谢谢

我想我理解这些概念,但希望能得到一些保证

2个回答

让我们考虑一个例子(这里我使用 Stata,但逻辑在任何其他包中都是一样的):

. sysuse nlsw88, clear
(NLSW, 1988 extract)


. reg wage c.tenure##c.tenure grade i.race

      Source |       SS           df       MS      Number of obs   =     2,229
-------------+----------------------------------   F(5, 2223)      =     66.51
       Model |  9640.89034         5  1928.17807   Prob > F        =    0.0000
    Residual |  64447.0774     2,223   28.991038   R-squared       =    0.1301
-------------+----------------------------------   Adj R-squared   =    0.1282
       Total |  74087.9678     2,228  33.2531274   Root MSE        =    5.3843

------------------------------------------------------------------------------
        wage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      tenure |   .2773182   .0677307     4.09   0.000     .1444962    .4101402
             |
    c.tenure#|
    c.tenure |  -.0070752   .0036278    -1.95   0.051    -.0141894    .0000389
             |
       grade |   .6792721   .0461853    14.71   0.000     .5887013    .7698429
             |
        race |
      black  |  -.7517506   .2649033    -2.84   0.005    -1.271234   -.2322669
      other  |   .6315991    1.06455     0.59   0.553    -1.456017    2.719215
             |
       _cons |  -2.106807   .6357411    -3.31   0.001    -3.353516   -.8600988
------------------------------------------------------------------------------

添加二次项任期2( c.tenure#c.tenure) 表示当您获得更多任期时,任期的影响会发生变化。当您的任期为 0 年时,如果斜率保持不变,则斜率是这样的,如果斜率保持不变,您的小时工资将增加 28 美分。(每小时工资以美元计,因此 0.28 美元的变化是 28 美分的变化。)任期每增加一年,斜率就会降低 0.7 美分。在这种情况下,平方项的系数为负,所以关系是凹的。将这种关系视为图表通常会有所帮助:

. qui margins, at(grade=12 race=1 tenure=(0/26))

. marginsplot

  Variables that uniquely identify margins: tenure

在此处输入图像描述

最初,随着任期的延长,您会获得更高的工资,但收益会减少,甚至在任期 20 年后变为负数。我们可以更准确地了解何时发生这种情况:

. nlcom -_b[tenure]/(2*_b[c.tenure#c.tenure])

       _nl_1:  -_b[tenure]/(2*_b[c.tenure#c.tenure])

------------------------------------------------------------------------------
        wage |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       _nl_1 |   19.59777   5.692054     3.44   0.001     8.441549    30.75399
------------------------------------------------------------------------------

注意巨大的置信区间,这是很典型的,所以在解释最大值的位置时要小心。

1)添加二次项允许非线性(在线性模型中)。如果您认为目标变量和特征之间的关系可能是非线性的,则可以添加二次项。(或者,您可以考虑对数转换。)

2) 二次项的重要性可能表明该关系是非线性的。符号仅代表非线性的类型。一个正二次项可能表明您的关系是指数的。负关系表明,对于您的特征的低值,关系可能是正的,但对于高值,关系变为负。

3) 正确。显然,拟合函数可以预测最大值 20。之后,如果它的符号为负,则非线性项占主导地位。

这有什么帮助吗?