机器算法验证 - OLS 回归结果：p 值 > 0.10，如何进行？ - 吾爱随笔录

OLS 回归结果：p 值 > 0.10，如何进行？

机器算法验证回归 p 值

2022-03-26 11:19:41

在 Python statsmodels 文档中有一个目标示例：

我们想知道法国 85 个部门（Departments）的识字率（Literacy column）是否与 1820 年代皇家彩票（Lottery）的人均赌注有关。我们需要控制每个部门的财富水平（财富），并且我们还希望在回归方程的右侧包含一系列虚拟变量，以控制由于区域效应（Region; N）导致的未观察到的异质性, E, S, W 为 0 或 1)。该模型使用普通最小二乘回归 (OLS) 进行估计。

OLS Regression Results
==============================================================================
Dep. Variable:                Lottery   R-squared:                       0.338
Model:                            OLS   Adj. R-squared:                  0.287
Method:                 Least Squares   F-statistic:                     6.636
Date:                Tue, 02 Feb 2021   Prob (F-statistic):           1.07e-05
Time:                        07:07:06   Log-Likelihood:                -375.30
No. Observations:                  85   AIC:                             764.6
Df Residuals:                      78   BIC:                             781.7
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
===============================================================================
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept      38.6517      9.456      4.087      0.000      19.826      57.478
Region[T.E]   -15.4278      9.727     -1.586      0.117     -34.793       3.938
Region[T.N]   -10.0170      9.260     -1.082      0.283     -28.453       8.419
Region[T.S]    -4.5483      7.279     -0.625      0.534     -19.039       9.943
Region[T.W]   -10.0913      7.196     -1.402      0.165     -24.418       4.235
Literacy       -0.1858      0.210     -0.886      0.378      -0.603       0.232
Wealth          0.4515      0.103      4.390      0.000       0.247       0.656
==============================================================================
Omnibus:                        3.049   Durbin-Watson:                   1.785
Prob(Omnibus):                  0.218   Jarque-Bera (JB):                2.694
Skew:                          -0.340   Prob(JB):                        0.260
Kurtosis:                       2.454   Cond. No.                         371.
==============================================================================

Prob (F-statistic), 1.07e-05, 因此拒绝原假设（H0：所有系数都等于零），因此有统计上显着的证据表明因变量和自变量之间存在关系。但只有财富的 p 值 < 0.05。

模型应该按原样使用吗？还是应该删除除财富之外的所有自变量？基于“我们想知道是否识字......我们需要控制每个部门的财富（财富）水平......”的目标应该做什么？

2个回答

假设模型假设没有问题，则应按原样使用模型。不应删除无关紧要的变量。删除它们将使在缩减模型中运行的任何测试无效。（删除无关紧要的变量似乎是一种常见的做法，但这并不能让它变得更好。有时会有一些原因，例如在使用模型进行预测时删除将来观察起来可能很昂贵的变量，或者观察的数量太小，无法以合理的可靠性拟合完整模型，但我在这里看不到这样的原因；即使在这种情况下，通常也有比重要性更好的标准。）

如果您删除自变量，即使是那些在统计上不显着的变量，它也会改变财富变量（和其他变量）的系数。它还会降低您调整后的 R 平方值，0.287 已经不是很好（但也不错）。这当然意味着 28.7% 的结果变量由模型中的自变量解释。

删除一些自变量可能会使财富变量的 p 值更小，但这只是因为财富可能以某种方式与这些自变量相关。换句话说，您希望所有这些自变量都留在方程中，因为回归会控制它们，并且不会错误地将它们的影响归因于财富。一个典型的例子是将饮酒与不良健康联系起来的回归。但吸烟往往与饮酒有关。当吸烟也包括在回归中时，饮酒不再与不良健康显着相关。

您实际上可以删除一些非常不重要的自变量，并查看其他变量的系数如何变化。以这种方式处理它们是回归艺术的一部分，但这需要良好的学科领域知识。了解这些自变量之间的相关程度也很有用。如果是这样，您将具有多重共线性，这将削弱相互关联的变量的预测能力；在这种情况下，通常最好从回归中删除其中一个。这会将它们对因变量的影响转移到其余的自变量上，至少在它们相互关联的程度上。

其它你可能感兴趣的问题

上一篇如何在 R 中为嵌套在主题设计中获得球形度？下一篇置信区间可以跨越零标记吗？