当假设不满足时,回归模型有多不正确?

机器算法验证 回归 多重回归 错误 假设 正态假设
2022-01-18 04:00:01

在拟合回归模型时,如果不满足输出的假设会发生什么,具体而言:

  1. 如果残差不是同方差的会发生什么?如果残差在残差与拟合图中显示出增加或减少的模式。
  2. 如果残差不是正态分布且未通过 Shapiro-Wilk 检验,会发生什么情况?正态性的 Shapiro-Wilk 检验是一项非常严格的检验,有时即使 Normal-QQ 图看起来有些合理,数据也未能通过检验。
  3. 如果一个或多个预测变量不是正态分布、在 Normal-QQ 图上看起来不正确或数据未通过 Shapiro-Wilk 检验,会发生什么情况?

我知道没有硬性的黑白划分,0.94是对的,0.95是错的,在问题中,我想知道:

  1. 对于根据 R-Squared 值拟合良好的模型而言,不符合正态性意味着什么。它会变得不那么可靠,还是完全没用?
  2. 偏差在多大程度上是可以接受的,或者完全可以接受?
  3. 当对数据应用转换以满足正态性标准时,如果数据更正态(Shapiro-Wilk 检验的 P 值更高,在正态 QQ 图上更好看),模型是否会变得更好,或者它是无用的(同样好或与原始数据相比差)直到数据通过正态性检验?
1个回答

如果残差不是同方差的会发生什么?如果残差在残差与拟合图中显示出增加或减少的模式。

如果误差项不是同方差的(我们使用残差作为不可观察误差项的代理),OLS 估计量仍然是一致且无偏的,但不再是线性估计量中最有效的。现在享受这个属性的是 GLS 估计器。

如果残差不是正态分布且未通过 Shapiro-Wilk 检验,会发生什么情况?正态性的 Shapiro-Wilk 检验是一项非常严格的检验,有时即使 Normal-QQ 图看起来有些合理,数据也未能通过检验。

Gauss-Markov 定理不需要正态性。OLS 估计量仍然是蓝色的,但如果没有正态性,您将难以进行推理,即假设检验和置信区间,至少对于有限的样本量。但是,仍然有引导程序。

渐近地,这不是一个问题,因为 OLS 估计量在温和的正则条件下具有限制正态分布。

如果一个或多个预测变量不是正态分布、在 Normal-QQ 图上看起来不正确或数据未通过 Shapiro-Wilk 检验,会发生什么情况?

据我所知,预测变量要么被认为是固定的,要么回归以它们为条件。这限制了非正态性的影响。

对于根据 R-Squared 值拟合良好的模型而言,不符合正态性意味着什么。它会变得不那么可靠,还是完全没用?

R平方是模型解释的方差的比例。它不需要正态性假设,无论如何它都是拟合优度的度量。但是,如果您想将其用于部分 F 测试,那就另当别论了。

偏差在多大程度上是可以接受的,或者完全可以接受?

你的意思是偏离常态,对吧?这实际上取决于您的目的,因为正如我所说,在没有常态的情况下推理变得困难,但并非不可能(引导程序!)。

当对数据应用转换以满足正态性标准时,如果数据更正态(Shapiro-Wilk 检验的 P 值更高,在正态 QQ 图上更好看),模型是否会变得更好,或者它是无用的(同样好或与原始数据相比差)直到数据通过正态性检验?

简而言之,如果您拥有所有高斯-马尔可夫假设加上正态性,则 OLS 估计量是最佳无偏 (BUE),即所有类型的估计量中最有效的 - 达到 Cramer-Rao 下限。这当然是可取的,但如果它没有发生,这不是世界末日。上述说明适用。

关于转换,请记住,虽然响应的分布可能更接近正态分布,但之后的解释可能并不简单。

这些只是对您的问题的一些简短回答。您似乎特别关注非正态性的影响。总的来说,我想说这并不像人们(已经被制造成?)相信的那样灾难性,并且有解决方法。我包含的两篇参考文献是进一步阅读的一个很好的起点,第一篇是理论性质的。

参考资料

林,文雄。:“计量经济学”,普林斯顿大学出版社,2000 年

库特纳、迈克尔 H. 等人。“应用线性统计模型。”,McGraw-Hill Irwin,2005 年。