为什么截距的标准误会越来越大X¯x¯从 0 开始?

机器算法验证 回归 解释 标准错误
2022-01-26 12:17:30

截距项的标准误 (β^0) 在y=β1x+β0+ε是(谁)给的

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
在哪里x¯是的平均值xi的。

据我了解,SE 量化了您的不确定性——例如,在 95% 的样本中,间隔[β^02SE,β^0+2SE]将包含真实的β0. 我无法理解 SE(一种不确定性的度量)如何随着x¯. 如果我只是简单地转移我的数据,那么x¯=0,我的不确定性下降了?这似乎不合理。

一个类似的解释是 - 在我的数据的非中心版本中,β^0对应于我的预测x=0,而在居中的数据中,β^0对应于我的预测x=x¯. 那么这是否意味着我对我的预测的不确定性x=0大于我对我的预测的不确定性x=x¯? 这似乎也不合理,错误ϵ对于 的所有值具有相同的方差x,所以我的预测值的不确定性应该对所有人都相同x.

我敢肯定,我的理解存在差距。有人可以帮我理解发生了什么吗?

1个回答

因为由普通最小二乘法拟合的回归线必然会通过数据的平均值(即,(x¯,y¯))——至少只要你不抑制截距——关于斜率真实值的不确定性对直线在平均值处的垂直位置没有影响x(我吃y^x¯)。这转化为较小的垂直不确定性x¯比你离得更远x¯你是。如果拦截,在哪里x=0x¯,那么这将最大限度地减少您对真实值的不确定性β0. 在数学术语中,这转化为标准误差的最小可能值β^0.

这是一个简单的例子R

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

在此处输入图像描述

这个图有点忙,但是你可以看到几个不同研究的数据,其中的分布x离得更近或更远0. 斜率因研究而异,但大体相似。(请注意,它们都经过我用来标记的带圆圈的 X(x¯,y¯).) 尽管如此,关于这些斜率真实值的不确定性导致了关于这些斜率的不确定性y^扩大你得到的距离x¯, 意味着SE(β^0)对于在x=10,并且对于数据在附近采样的研究来说非常狭窄x=0.


编辑以回应评论: 不幸的是,如果您想知道可能的情况,在获得数据后将数据居中将无济于事y一些价值x价值xnew. 相反,您首先需要将数据收集集中在您关心的点上。为了更全面地理解这些问题,它可能会帮助您在这里阅读我的答案:线性回归预测区间