线性回归中的误差项具有非恒定方差的后果是什么?

机器算法验证 回归 异方差 假设 稳健标准错误
2022-03-12 01:24:58

线性回归的假设之一是误差项应该有一个恒定的方差,并且与模型相关的置信区间和假设检验依赖于这个假设。当误差项没有恒定方差时,究竟会发生什么?

3个回答

异方差的后果是:

  1. 普通最小二乘 (OLS) 估计器 b^=(XX)Xy 仍然是一致的,但不再有效

  2. 估计 Var^(b)=(XX)1σ^2 其中  hatσ2=1nkee不再是估计量 b^它可能是有偏见的和不一致的。在实践中,它可能会大大低估方差。

第(1)点可能不是主要问题;无论如何,人们经常使用普通的 OLS 估计器。但必须解决第 (2) 点。该怎么办?

您需要异方差一致的标准误差标准方法是依靠大样本假设、渐近结果并使用以下方法估计 b 的方差:

Var^(b)=1n(XXn)1S(XXn)1 where S is estimated as S=1nki(xiei)(xiei).

这给出了异方差一致的标准误差。它们也被称为 Huber-White 标准误差、稳健标准误差、“三明治”估计器等......任何基本的标准统计数据包都有稳健标准误差的选项。用它!

一些额外的评论(更新)

如果异方差足够大,则常规 OLS 估计可能存在很大的实际问题。虽然仍然是一个一致的估计器,但您可能会遇到小样本问题,即您的整个估计是由几个高方差观察值驱动的。(这就是@seanv507 在评论中所暗示的)。OLS 估计器效率低下,因为它对高方差观察的权重比最优值更大。估计可能非常嘈杂。

尝试解决低效率的问题是您可能也不知道误差项的协方差矩阵,因此如果您对误差项协方差矩阵的估计是垃圾,使用GLS之类的东西会使事情变得更糟。

此外,我上面给出的 Huber-White 标准误差在小样本中可能存在很大问题。关于这个主题有很长的文献。例如。参见 Imbens 和 Kolesar (2016),“小样本中的稳健标准误差:一些实用建议”。

进修方向:

如果这是自学,下一个要考虑的实际问题是聚类标准误。这些纠正了集群内的任意相关性。

那么简短的回答基本上是你的模型是错误的,即

  • 为了使普通最小二乘成为最佳线性无偏E估计假设误差项的方差恒定。
  • Gauss-Markov 假设 - 如果满足 - 保证系数 $\beta$ 的最小二乘估计量是无偏的,并且在所有无偏线性估计量中具有最小方差。β is unbiased and has a min variance amongst all unbiased linear estimators.

因此,如果在估计方差 - 协方差矩阵时发生异方差问题,这会导致系数的错误标准误差,进而导致错误的 t 统计量和 p 值。简而言之,如果您的误差项没有恒定方差,那么普通最小二乘法并不是最有效的估计方法。看看这个相关的问题。

“异方差”使得难以估计预测误差的真实标准差。这可能会导致置信区间过宽或过窄(特别是对于样本外预测,如果误差的方差随着时间的推移而增加,它们将太窄)。

此外,回归模型可能过于关注数据子集。

很好的参考:测试线性回归的假设