我正在回答练习考试问题,并且在二次项上遇到问题。谁能给我一个快速的总结
1)为什么有时会包含它们?
2)如何解释它们?
关于 2)具体而言,您将如何解释系数的符号?
3)如果我们绘制了一条拟合值曲线,并且曲线在 20 年时达到最大值,我将如何解释?大于 20 年的值是否与响应变量的下降有关?
谢谢
我想我理解这些概念,但希望能得到一些保证
我正在回答练习考试问题,并且在二次项上遇到问题。谁能给我一个快速的总结
1)为什么有时会包含它们?
2)如何解释它们?
关于 2)具体而言,您将如何解释系数的符号?
3)如果我们绘制了一条拟合值曲线,并且曲线在 20 年时达到最大值,我将如何解释?大于 20 年的值是否与响应变量的下降有关?
谢谢
我想我理解这些概念,但希望能得到一些保证
让我们考虑一个例子(这里我使用 Stata,但逻辑在任何其他包中都是一样的):
. sysuse nlsw88, clear
(NLSW, 1988 extract)
. reg wage c.tenure##c.tenure grade i.race
Source | SS df MS Number of obs = 2,229
-------------+---------------------------------- F(5, 2223) = 66.51
Model | 9640.89034 5 1928.17807 Prob > F = 0.0000
Residual | 64447.0774 2,223 28.991038 R-squared = 0.1301
-------------+---------------------------------- Adj R-squared = 0.1282
Total | 74087.9678 2,228 33.2531274 Root MSE = 5.3843
------------------------------------------------------------------------------
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
tenure | .2773182 .0677307 4.09 0.000 .1444962 .4101402
|
c.tenure#|
c.tenure | -.0070752 .0036278 -1.95 0.051 -.0141894 .0000389
|
grade | .6792721 .0461853 14.71 0.000 .5887013 .7698429
|
race |
black | -.7517506 .2649033 -2.84 0.005 -1.271234 -.2322669
other | .6315991 1.06455 0.59 0.553 -1.456017 2.719215
|
_cons | -2.106807 .6357411 -3.31 0.001 -3.353516 -.8600988
------------------------------------------------------------------------------
添加二次项任期( c.tenure#c.tenure
) 表示当您获得更多任期时,任期的影响会发生变化。当您的任期为 0 年时,如果斜率保持不变,则斜率是这样的,如果斜率保持不变,您的小时工资将增加 28 美分。(每小时工资以美元计,因此 0.28 美元的变化是 28 美分的变化。)任期每增加一年,斜率就会降低 0.7 美分。在这种情况下,平方项的系数为负,所以关系是凹的。将这种关系视为图表通常会有所帮助:
. qui margins, at(grade=12 race=1 tenure=(0/26))
. marginsplot
Variables that uniquely identify margins: tenure
最初,随着任期的延长,您会获得更高的工资,但收益会减少,甚至在任期 20 年后变为负数。我们可以更准确地了解何时发生这种情况:
. nlcom -_b[tenure]/(2*_b[c.tenure#c.tenure])
_nl_1: -_b[tenure]/(2*_b[c.tenure#c.tenure])
------------------------------------------------------------------------------
wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_nl_1 | 19.59777 5.692054 3.44 0.001 8.441549 30.75399
------------------------------------------------------------------------------
注意巨大的置信区间,这是很典型的,所以在解释最大值的位置时要小心。
1)添加二次项允许非线性(在线性模型中)。如果您认为目标变量和特征之间的关系可能是非线性的,则可以添加二次项。(或者,您可以考虑对数转换。)
2) 二次项的重要性可能表明该关系是非线性的。符号仅代表非线性的类型。一个正二次项可能表明您的关系是指数的。负关系表明,对于您的特征的低值,关系可能是正的,但对于高值,关系变为负。
3) 正确。显然,拟合函数可以预测最大值 20。之后,如果它的符号为负,则非线性项占主导地位。
这有什么帮助吗?