对多元线性回归中 p 值的理解

机器算法验证 多重回归 p 值
2022-01-27 05:43:15

关于多元线性回归分析的p值,来自Minitab官网的介绍如下。

每个项的 p 值检验系数等于零(无影响)的原假设。低 p 值 (< 0.05) 表示您可以拒绝原假设。换句话说,具有低 p 值的预测变量可能对您的模型有意义,因为预测变量值的变化与响应变量的变化有关。

例如,我有一个结果 MLR 模型作为 y=0.46753X10.2668X2+1.6193X3+4.5424X4+14.48. 输出如下所示。然后一个y可以用这个方程计算。

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

根据上面的介绍,零假设是系数等于0。我的理解是系数,例如系数X4, 将被设置为 0,另一个 y 将被计算为y2=0.46753X10.2668X2+1.6193X3+0X4+14.48. 然后进行配对t检验yy2,但此 t 检验的 p 值为 6.9e-12,不等于 0.1292(系数的 p 值X4.

任何人都可以帮助正确理解吗?非常感谢!

2个回答

这是不正确的,有几个原因:

  1. “没有” X4 的模型不一定对其他值具有相同的系数估计值。适合缩小模型并亲自查看。

  2. 系数的统计检验不涉及从 2 个预测中获得的 Y 的“平均值”。预测的Y将始终具有相同的总均值,因此 t 检验的 p 值等于 0.5。这同样适用于残差。根据上述各点,您的 t 检验的值有误。

  3. 对系数的统计显着性进行的统计检验是单样本 t 检验。这是令人困惑的,因为我们没有 X4 的多个系数的“样本”,但是我们使用中心极限定理估计了这种样本的分布特性。均值和标准误差描述了这种限制分布的位置和形状。如果您取“Est”列并除以“SE”并与标准正态分布进行比较,这将为您提供第 4 列中的 p 值。

  4. 第四点:对 minitab 帮助页面的批评。这样的帮助文件无法在一个段落中总结多年的统计培训,所以我不必与整个事情抗衡。但是,说“预测变量”是“重要贡献”是模糊的,而且可能是不正确的。选择在多变量模型中包含哪些变量的基本原理是微妙的,并且依赖于科学推理而不是统计推断。

您对 p 值的初步解释似乎是正确的,即只有截距的系数与 0 显着不同。您会注意到 x4 的系数估计值仍然很高,但有足够的误差,它并不显着不同于0。

您对 y1 和 y2 的配对 t 检验表明模型彼此不同。这是意料之中的,在一个模型中,您包含一个很大但不精确的系数,该系数对您的模型有很大贡献。没有理由认为这些模型彼此不同的 p 值应该与 x4 的系数不为 0 的 p 值相同。