机器算法验证 - 当假设不满足时，回归模型有多不正确？ - 吾爱随笔录

机器算法验证回归多重回归错误假设正态假设

2022-01-18 04:00:01

在拟合回归模型时，如果不满足输出的假设会发生什么，具体而言：

如果残差不是同方差的会发生什么？如果残差在残差与拟合图中显示出增加或减少的模式。
如果残差不是正态分布且未通过 Shapiro-Wilk 检验，会发生什么情况？正态性的 Shapiro-Wilk 检验是一项非常严格的检验，有时即使 Normal-QQ 图看起来有些合理，数据也未能通过检验。
如果一个或多个预测变量不是正态分布、在 Normal-QQ 图上看起来不正确或数据未通过 Shapiro-Wilk 检验，会发生什么情况？

我知道没有硬性的黑白划分，0.94是对的，0.95是错的，在问题中，我想知道：

对于根据 R-Squared 值拟合良好的模型而言，不符合正态性意味着什么。它会变得不那么可靠，还是完全没用？
偏差在多大程度上是可以接受的，或者完全可以接受？
当对数据应用转换以满足正态性标准时，如果数据更正态（Shapiro-Wilk 检验的 P 值更高，在正态 QQ 图上更好看），模型是否会变得更好，或者它是无用的（同样好或与原始数据相比差）直到数据通过正态性检验？

1个回答

如果残差不是同方差的会发生什么？如果残差在残差与拟合图中显示出增加或减少的模式。

如果误差项不是同方差的（我们使用残差作为不可观察误差项的代理），OLS 估计量仍然是一致且无偏的，但不再是线性估计量中最有效的。现在享受这个属性的是 GLS 估计器。

如果残差不是正态分布且未通过 Shapiro-Wilk 检验，会发生什么情况？正态性的 Shapiro-Wilk 检验是一项非常严格的检验，有时即使 Normal-QQ 图看起来有些合理，数据也未能通过检验。

Gauss-Markov 定理不需要正态性。OLS 估计量仍然是蓝色的，但如果没有正态性，您将难以进行推理，即假设检验和置信区间，至少对于有限的样本量。但是，仍然有引导程序。

渐近地，这不是一个问题，因为 OLS 估计量在温和的正则条件下具有限制正态分布。

如果一个或多个预测变量不是正态分布、在 Normal-QQ 图上看起来不正确或数据未通过 Shapiro-Wilk 检验，会发生什么情况？

据我所知，预测变量要么被认为是固定的，要么回归以它们为条件。这限制了非正态性的影响。

对于根据 R-Squared 值拟合良好的模型而言，不符合正态性意味着什么。它会变得不那么可靠，还是完全没用？

R平方是模型解释的方差的比例。它不需要正态性假设，无论如何它都是拟合优度的度量。但是，如果您想将其用于部分 F 测试，那就另当别论了。

偏差在多大程度上是可以接受的，或者完全可以接受？

你的意思是偏离常态，对吧？这实际上取决于您的目的，因为正如我所说，在没有常态的情况下推理变得困难，但并非不可能（引导程序！）。

当对数据应用转换以满足正态性标准时，如果数据更正态（Shapiro-Wilk 检验的 P 值更高，在正态 QQ 图上更好看），模型是否会变得更好，或者它是无用的（同样好或与原始数据相比差）直到数据通过正态性检验？

简而言之，如果您拥有所有高斯-马尔可夫假设加上正态性，则 OLS 估计量是最佳无偏 (BUE)，即所有类型的估计量中最有效的 - 达到 Cramer-Rao 下限。这当然是可取的，但如果它没有发生，这不是世界末日。上述说明适用。

关于转换，请记住，虽然响应的分布可能更接近正态分布，但之后的解释可能并不简单。

这些只是对您的问题的一些简短回答。您似乎特别关注非正态性的影响。总的来说，我想说这并不像人们（已经被制造成？）相信的那样灾难性，并且有解决方法。我包含的两篇参考文献是进一步阅读的一个很好的起点，第一篇是理论性质的。

参考资料：

林，文雄。：“计量经济学”，普林斯顿大学出版社，2000 年

库特纳、迈克尔 H. 等人。“应用线性统计模型。”，McGraw-Hill Irwin，2005 年。

其它你可能感兴趣的问题