我正在尝试使用几个自变量进行 OLS 回归,并希望更好地了解如何通过对回归中的自变量进行 t 检验来解释 p 值。例如,这是我的结果:
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.612
Model: OLS Adj. R-squared: 0.497
Method: Least Squares F-statistic: 5.353
Date: Fri, 11 Jan 2013 Prob (F-statistic): 0.00390
Time: 16:12:03 Log-Likelihood: -239.61
No. Observations: 23 AIC: 491.2
Df Residuals: 17 BIC: 498.0
Df Model: 5
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
const 4.268e+05 1.85e+04 23.092 0.000 3.88e+05 4.66e+05
x1 -70.4536 2230.755 -0.032 0.975 -4776.936 4636.028
x2 -2.384e+04 1.25e+04 -1.905 0.074 -5.02e+04 2565.514
x3 -3821.8439 3848.891 -0.993 0.335 -1.19e+04 4298.607
x4 4030.8183 2295.228 1.756 0.097 -811.689 8873.325
x5 -3.955e+04 1.73e+04 -2.282 0.036 -7.61e+04 -2977.451
==============================================================================
Omnibus: 2.870 Durbin-Watson: 1.674
Prob(Omnibus): 0.238 Jarque-Bera (JB): 1.326
Skew: -0.227 Prob(JB): 0.515
Kurtosis: 4.085 Cond. No. 21.8
==============================================================================
据我了解,如果给定变量的 p 值高于某个阈值(例如 p 值 > 0.05),就像变量 x1 的 pvalue=0.975 的情况一样,那么可以说这种特定的回归不会获得有这个变量的任何附加信息。如果我误解或概括太多,请告诉我。
让我感到困惑的是同一个变量 x1,当我只使用 x1 和 x5 运行回归时,x1 的 p 值 = 0.05。我猜我把这解释为,x1 有一些有用的信息,但与 x2、x2 和 x4 一起携带的信息相比,x1 没有用处。
关于特征选择,尝试 x1 到 x5 的所有各种子集是否正确,丢弃那些包含 p 值 > 0.05 的自变量的子集,然后使用剩余的组合进行交叉验证以找到最佳模型参数?
我的最终目标是从大量变量中进行特征选择,也许 p 值不是最好的选择。无论哪种情况,我都想更好地理解这些 p 值,如果您有最喜欢的特征选择方法,我也很想听听。谢谢