如果残差不是同方差的会发生什么?如果残差在残差与拟合图中显示出增加或减少的模式。
如果误差项不是同方差的(我们使用残差作为不可观察误差项的代理),OLS 估计量仍然是一致且无偏的,但不再是线性估计量中最有效的。现在享受这个属性的是 GLS 估计器。
如果残差不是正态分布且未通过 Shapiro-Wilk 检验,会发生什么情况?正态性的 Shapiro-Wilk 检验是一项非常严格的检验,有时即使 Normal-QQ 图看起来有些合理,数据也未能通过检验。
Gauss-Markov 定理不需要正态性。OLS 估计量仍然是蓝色的,但如果没有正态性,您将难以进行推理,即假设检验和置信区间,至少对于有限的样本量。但是,仍然有引导程序。
渐近地,这不是一个问题,因为 OLS 估计量在温和的正则条件下具有限制正态分布。
如果一个或多个预测变量不是正态分布、在 Normal-QQ 图上看起来不正确或数据未通过 Shapiro-Wilk 检验,会发生什么情况?
据我所知,预测变量要么被认为是固定的,要么回归以它们为条件。这限制了非正态性的影响。
对于根据 R-Squared 值拟合良好的模型而言,不符合正态性意味着什么。它会变得不那么可靠,还是完全没用?
R平方是模型解释的方差的比例。它不需要正态性假设,无论如何它都是拟合优度的度量。但是,如果您想将其用于部分 F 测试,那就另当别论了。
偏差在多大程度上是可以接受的,或者完全可以接受?
你的意思是偏离常态,对吧?这实际上取决于您的目的,因为正如我所说,在没有常态的情况下推理变得困难,但并非不可能(引导程序!)。
当对数据应用转换以满足正态性标准时,如果数据更正态(Shapiro-Wilk 检验的 P 值更高,在正态 QQ 图上更好看),模型是否会变得更好,或者它是无用的(同样好或与原始数据相比差)直到数据通过正态性检验?
简而言之,如果您拥有所有高斯-马尔可夫假设加上正态性,则 OLS 估计量是最佳无偏 (BUE),即所有类型的估计量中最有效的 - 达到 Cramer-Rao 下限。这当然是可取的,但如果它没有发生,这不是世界末日。上述说明适用。
关于转换,请记住,虽然响应的分布可能更接近正态分布,但之后的解释可能并不简单。
这些只是对您的问题的一些简短回答。您似乎特别关注非正态性的影响。总的来说,我想说这并不像人们(已经被制造成?)相信的那样灾难性,并且有解决方法。我包含的两篇参考文献是进一步阅读的一个很好的起点,第一篇是理论性质的。
参考资料:
林,文雄。:“计量经济学”,普林斯顿大学出版社,2000 年
库特纳、迈克尔 H. 等人。“应用线性统计模型。”,McGraw-Hill Irwin,2005 年。