OLS 回归结果:p 值 > 0.10,如何进行?

机器算法验证 回归 p 值
2022-03-26 11:19:41

在 Python statsmodels 文档中有一个目标示例:

我们想知道法国 85 个部门(Departments)的识字率(Literacy column)是否与 1820 年代皇家彩票(Lottery)的人均赌注有关。我们需要控制每个部门的财富水平(财富),并且我们还希望在回归方程的右侧包含一系列虚拟变量,以控制由于区域效应(Region; N)导致的未观察到的异质性, E, S, W 为 0 或 1)。该模型使用普通最小二乘回归 (OLS) 进行估计。

OLS Regression Results
==============================================================================
Dep. Variable:                Lottery   R-squared:                       0.338
Model:                            OLS   Adj. R-squared:                  0.287
Method:                 Least Squares   F-statistic:                     6.636
Date:                Tue, 02 Feb 2021   Prob (F-statistic):           1.07e-05
Time:                        07:07:06   Log-Likelihood:                -375.30
No. Observations:                  85   AIC:                             764.6
Df Residuals:                      78   BIC:                             781.7
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
===============================================================================
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept      38.6517      9.456      4.087      0.000      19.826      57.478
Region[T.E]   -15.4278      9.727     -1.586      0.117     -34.793       3.938
Region[T.N]   -10.0170      9.260     -1.082      0.283     -28.453       8.419
Region[T.S]    -4.5483      7.279     -0.625      0.534     -19.039       9.943
Region[T.W]   -10.0913      7.196     -1.402      0.165     -24.418       4.235
Literacy       -0.1858      0.210     -0.886      0.378      -0.603       0.232
Wealth          0.4515      0.103      4.390      0.000       0.247       0.656
==============================================================================
Omnibus:                        3.049   Durbin-Watson:                   1.785
Prob(Omnibus):                  0.218   Jarque-Bera (JB):                2.694
Skew:                          -0.340   Prob(JB):                        0.260
Kurtosis:                       2.454   Cond. No.                         371.
==============================================================================

Prob (F-statistic), 1.07e-05, 因此拒绝原假设(H0:所有系数都等于零),因此有统计上显着的证据表明因变量和自变量之间存在关系。但只有财富的 p 值 < 0.05。

模型应该按原样使用吗?还是应该删除除财富之外的所有自变量?基于“我们想知道是否识字......我们需要控制每个部门的财富(财富)水平......”的目标应该做什么?

2个回答

假设模型假设没有问题,则应按原样使用模型。不应删除无关紧要的变量。删除它们将使在缩减模型中运行的任何测试无效。(删除无关紧要的变量似乎是一种常见的做法,但这并不能让它变得更好。有时会有一些原因,例如在使用模型进行预测时删除将来观察起来可能很昂贵的变量,或者观察的数量太小,无法以合理的可靠性拟合完整模型,但我在这里看不到这样的原因;即使在这种情况下,通常也有比重要性更好的标准。)

如果您删除自变量,即使是那些在统计上不显着的变量,它也会改变财富变量(和其他变量)的系数。它还会降低您调整后的 R 平方值,0.287 已经不是很好(但也不错)。这当然意味着 28.7% 的结果变量由模型中的自变量解释。

删除一些自变量可能会使财富变量的 p 值更小,但这只是因为财富可能以某种方式与这些自变量相关。换句话说,您希望所有这些自变量都留在方程中,因为回归会控制它们,并且不会错误地将它们的影响归因于财富。一个典型的例子是将饮酒与不良健康联系起来的回归。但吸烟往往与饮酒有关。当吸烟也包括在回归中时,饮酒不再与不良健康显着相关。

您实际上可以删除一些非常不重要的自变量,并查看其他变量的系数如何变化。以这种方式处理它们是回归艺术的一部分,但这需要良好的学科领域知识。了解这些自变量之间的相关程度也很有用。如果是这样,您将具有多重共线性,这将削弱相互关联的变量的预测能力;在这种情况下,通常最好从回归中删除其中一个。这会将它们对因变量的影响转移到其余的自变量上,至少在它们相互关联的程度上。