如何确定哪些变量在多元回归中具有统计显着性?

机器算法验证 r 回归 统计学意义 自习
2022-03-15 09:55:33

根据我的模型,我被要求确定哪些变量具有统计显着性。

fitted.model <- lm(spending ~ sex + status + income, data=spending)

我的结果如下:

Coefficients:
                Estimate  Std. Error t value   Pr(>|t|)    
(Intercept)    22.55565   17.19680   1.312   0.1968    
sex         **-22.11833**  8.21111  -2.694   0.0101 *  
status          0.05223    0.28111   0.186   0.8535    
income          4.96198    1.02539   4.839 1.79e-05 ***
verbal         -2.95949    2.17215  -1.362   0.1803 

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 22.69 on 42 degrees of freedom
Multiple R-squared: 0.5267, Adjusted R-squared: 0.4816 
F-statistic: 11.69 on 4 and 42 DF,  p-value: 1.815e-06.

问题:我必须看最后一列吗?如果是这样,那么sexincome将具有统计学意义。

4个回答

是的,基于输出,sex并且income具有统计显着性。

sex并且可能status是名义变量,因此它们按原样出现在模型中很奇怪。如果它们是 0/1 变量,它可能会起作用,但它仍然存在出错的可能性。

为了安全起见,对于sex任何其他名义变量,将其包含在模型中,如下所示factor(sex)

fitted.model <- lm(spending ~ factor(sex) + status + income, data=spending)

最后一列中的 p 值告诉您给定参数的回归系数的显着性。如果 p 值小到足以声称具有统计显着性,那仅意味着有强有力的证据表明该系数不同于 0。但在回归上下文中,认为这意味着性别和收入是只有重要的因素。正如我们所看到的(我认为对于这个数据集),变量是相关的,并且它们的系数和t统计量可能会发生很大变化,具体取决于回归中包含哪些其他变量。当模型中仅包含性别和收入时,您应该查看这些 t 检验的内容。

谁要求你确定这一点?这看起来像家庭作业,如果是的话,应该这样标记。

您问题的答案在很大程度上取决于回归上下文中“统计显着”的含义。按照您的建议查看最后一列将满足一个定义,但是一个相当简单的定义。

您上面引用的输出不包括摘要的其余部分,其中包括整体 F 检验。应该在单独测试之前检查该 p 值,可能有一个整体测试告诉您没有什么是显着的,但是由于多次测试的 alpha 膨胀,单独的测试或 2 显示显着性。

如果地位和语言相互关联,那么任何一个都可能是支出的一个非常“重要”的预测指标,但与另一个相比显得多余。

是的,您应该查看包含 p 值参数的最后一列。

通常,我们认为如果某个变量的 p 值 < 0.05,那么它是显着的并且与您的预测变量有某种关系。

在这种情况下,p 值为 0.0101 的性别和 1.79e-05 的收入都低于 0.05,因此是显着的。

p 值可以通过在 t 分布中查找 t 值(第三列)来验证。通过将每个系数(估计 - 第一列)除以其标准误差(第二列)来给出 t 值。