解释线性回归模型中虚拟变量的标准误差

机器算法验证 回归 解释 标准错误 分类编码
2022-03-28 19:04:05

有没有办法解释为表示线性回归模型中的分类变量而创建的虚拟变量的标准误差?我在这里看到了一个很好的数学解释,但我仍然无法理解“现实生活”的解释,如果有的话。

例如,假设这是一个案例研究的结果:

> summary(results)$coefficients

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  31.35750    2.32037  13.514 1.55e-14 ***
sexwoman     -0.53100    1.77624  -0.299   0.7670 

根据性别代表公司员工的平均工资(以千计)。我们如何解释这个标准错误?

1个回答

基本数学是截距 ( ) 表示男性的平均工资,以1000美元为单位;参数表示平均女性和男性平均工资之间的差异。所以我们可以说“平均而言,女性比男性少赚 530美元(标准误差为1,776美元)”。置信区间的差异范围从女性的工资比男性少 2,306 美元到多1,246美元。β0β1±2SE

±2SE是常用的快捷方式;它比基于正态的 95% 置信区间 ( ) 稍宽,并且当您的剩余自由度(观察数减去模​​型参数数)适中时,它是一个很好的近似值。特别是,SE 乘数(可以通过给定的 R 在 R 中计算)是:±1.96SEqt(0.975, df)df

  • 1.96(实际上是 1.9599)作为 df
  • df = 50 时为 2.008
  • df = 20 时为 2.086
  • df = 10 时为 2.228
  • df = 5 时为 2.571。

等等。我从您的评论中反算出的 SE 乘数约为 2.6,所以我的猜测是您有大约5 个残差 df(残差 df 显示在summary()输出中,但您没有向我们展示...)

当存在不同的对比和预测变量之间的相互作用时,解释与因子相关的虚拟变量会变得相当复杂,但您的情况很简单。