在我使用的教科书(介绍计量经济学: Jeffrey M. Wooldridge的现代方法)中,有这样一段描述,
通过明确说明同方差假设以条件均值中出现的解释变量为条件,很明显,只有依赖于模型中解释变量的异方差才会影响标准误差和检验统计量的有效性。
我不太明白这里是什么意思,尤其是“很清楚”的原因。有人可以详细说明一下吗?
在我使用的教科书(介绍计量经济学: Jeffrey M. Wooldridge的现代方法)中,有这样一段描述,
通过明确说明同方差假设以条件均值中出现的解释变量为条件,很明显,只有依赖于模型中解释变量的异方差才会影响标准误差和检验统计量的有效性。
我不太明白这里是什么意思,尤其是“很清楚”的原因。有人可以详细说明一下吗?
我无法访问这本书,但我认为应该有一个额外的警告。省略的变量[s] 应该与模型中出现的解释变量不相关。如果条件方差所依赖的遗漏变量与包含变量相关,则残差方差将随模型变量而变化,违反同方差假设。另一方面,如果遗漏变量不相关,则残差/误差方差在模型变量的范围内将是相同的。因此,同方差假设对该模型有效。
有时看一个例子或尝试一些模拟会有所帮助。这是我工作过的一个R:
set.seed(9018) # this makes the example exactly reproducible
x = runif(500, min=0, max=10) # x is a uniformly distributed continuous variable
g = rep(c(0,1), each=250) # g is a grouping variable, which will be omitted
y1 = 5 + .3*x + g + c(rnorm(250, mean=0, sd=1), # residual SD=1 when g=0
rnorm(250, mean=0, sd=2) ) # residual SD=2 when g=1
xs = sort(x) # by sorting x, I make it correlated w/ g
y2 = 5 + .3*xs + g + c(rnorm(250, mean=0, sd=1),
rnorm(250, mean=0, sd=2) )
uncor.m = lm(y1~x) # this is the model w/ g omitted, but uncorrelated w/ x
cor.m = lm(y2~xs) # in this case, g is correlated w/ xs
library(lmtest) # we use this package to run the Breusch-Pagan tests
bptest(uncor.m)
# studentized Breusch-Pagan test
#
# data: uncor.m
# BP = 0.1178, df = 1, p-value = 0.7314
bptest(cor.m)
# studentized Breusch-Pagan test
#
# data: cor.m
# BP = 38.2682, df = 1, p-value = 6.166e-10
这是模型的尺度位置图,您可以看到不相关的版本是平坦的,而相关的版本在右侧具有更高的残差:

模型的残差分布是对遗漏变量的误差积分。在最简单的情况下,您可以混合具有相同均值 ( ) 但方差 / SD 不同的两个法线。实际上,这将产生具有中等方差(至少略微)的单一分布。这类似于我上面说明的情况(在模拟中,对均值和方差都有影响,因此分布会有点双峰)。通常,在忽略变量上边缘化的误差分布根本不会很正常。这种情况直接类似于 Y 的边际分布条件分布上积分g(残差)和的分布。例如,在这里阅读我的答案可能会有所帮助:如果残差是正态分布的,但 Y 不是? 请注意,即使您具有同方差性,误差/残差的正态性也会影响标准误差的有效性。有了足够的数据,对于 SE 来说,残差不必完全正常才能有效,但是这需要更多的数据,你的残差离正态越远,必要的可能比人们怀疑的要高得多(参见@Macro 的回答这里:当 OLS 残差不是正态分布时的回归)。
一般来说,如果您认为这是一种合理的可能性,那么最好只使用对这些问题具有鲁棒性的标准错误。Huber-White 异方差一致的“三明治”错误非常方便,因此通常被使用。