线性回归的假设之一是误差项应该有一个恒定的方差,并且与模型相关的置信区间和假设检验依赖于这个假设。当误差项没有恒定方差时,究竟会发生什么?
线性回归中的误差项具有非恒定方差的后果是什么?
异方差的后果是:
第(1)点可能不是主要问题;无论如何,人们经常使用普通的 OLS 估计器。但必须解决第 (2) 点。该怎么办?
您需要异方差一致的标准误差。标准方法是依靠大样本假设、渐近结果并使用以下方法估计 的方差:
where is estimated as .
这给出了异方差一致的标准误差。它们也被称为 Huber-White 标准误差、稳健标准误差、“三明治”估计器等......任何基本的标准统计数据包都有稳健标准误差的选项。用它!
一些额外的评论(更新)
如果异方差足够大,则常规 OLS 估计可能存在很大的实际问题。虽然仍然是一个一致的估计器,但您可能会遇到小样本问题,即您的整个估计是由几个高方差观察值驱动的。(这就是@seanv507 在评论中所暗示的)。OLS 估计器效率低下,因为它对高方差观察的权重比最优值更大。估计可能非常嘈杂。
尝试解决低效率的问题是您可能也不知道误差项的协方差矩阵,因此如果您对误差项协方差矩阵的估计是垃圾,使用GLS之类的东西会使事情变得更糟。
此外,我上面给出的 Huber-White 标准误差在小样本中可能存在很大问题。关于这个主题有很长的文献。例如。参见 Imbens 和 Kolesar (2016),“小样本中的稳健标准误差:一些实用建议”。
进修方向:
如果这是自学,下一个要考虑的实际问题是聚类标准误。这些纠正了集群内的任意相关性。
那么简短的回答基本上是你的模型是错误的,即
- 为了使普通最小二乘成为最佳线性无偏E估计器,假设误差项的方差恒定。
- Gauss-Markov 假设 - 如果满足 - 保证系数 $\beta$ 的最小二乘估计量是无偏的,并且在所有无偏线性估计量中具有最小方差。 is unbiased and has a min variance amongst all unbiased linear estimators.
因此,如果在估计方差 - 协方差矩阵时发生异方差问题,这会导致系数的错误标准误差,进而导致错误的 t 统计量和 p 值。简而言之,如果您的误差项没有恒定方差,那么普通最小二乘法并不是最有效的估计方法。看看这个相关的问题。
“异方差”使得难以估计预测误差的真实标准差。这可能会导致置信区间过宽或过窄(特别是对于样本外预测,如果误差的方差随着时间的推移而增加,它们将太窄)。
此外,回归模型可能过于关注数据子集。
很好的参考:测试线性回归的假设