在 Python statsmodels 文档中有一个目标示例:
我们想知道法国 85 个部门(Departments)的识字率(Literacy column)是否与 1820 年代皇家彩票(Lottery)的人均赌注有关。我们需要控制每个部门的财富水平(财富),并且我们还希望在回归方程的右侧包含一系列虚拟变量,以控制由于区域效应(Region; N)导致的未观察到的异质性, E, S, W 为 0 或 1)。该模型使用普通最小二乘回归 (OLS) 进行估计。
OLS Regression Results
==============================================================================
Dep. Variable: Lottery R-squared: 0.338
Model: OLS Adj. R-squared: 0.287
Method: Least Squares F-statistic: 6.636
Date: Tue, 02 Feb 2021 Prob (F-statistic): 1.07e-05
Time: 07:07:06 Log-Likelihood: -375.30
No. Observations: 85 AIC: 764.6
Df Residuals: 78 BIC: 781.7
Df Model: 6
Covariance Type: nonrobust
===============================================================================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------------------------------------
Intercept 38.6517 9.456 4.087 0.000 19.826 57.478
Region[T.E] -15.4278 9.727 -1.586 0.117 -34.793 3.938
Region[T.N] -10.0170 9.260 -1.082 0.283 -28.453 8.419
Region[T.S] -4.5483 7.279 -0.625 0.534 -19.039 9.943
Region[T.W] -10.0913 7.196 -1.402 0.165 -24.418 4.235
Literacy -0.1858 0.210 -0.886 0.378 -0.603 0.232
Wealth 0.4515 0.103 4.390 0.000 0.247 0.656
==============================================================================
Omnibus: 3.049 Durbin-Watson: 1.785
Prob(Omnibus): 0.218 Jarque-Bera (JB): 2.694
Skew: -0.340 Prob(JB): 0.260
Kurtosis: 2.454 Cond. No. 371.
==============================================================================
Prob (F-statistic), 1.07e-05, 因此拒绝原假设(H0:所有系数都等于零),因此有统计上显着的证据表明因变量和自变量之间存在关系。但只有财富的 p 值 < 0.05。
模型应该按原样使用吗?还是应该删除除财富之外的所有自变量?基于“我们想知道是否识字......我们需要控制每个部门的财富(财富)水平......”的目标应该做什么?