我使用什么测试来确认残差是正态分布的?

机器算法验证 假设检验 正态分布 假设
2022-01-25 05:24:41

我有一些数据可以通过绘制残差与时间的关系图得出,几乎是正常的,但我想确定一下。如何测试误差残差的正态性?

3个回答
  1. 没有测试会告诉你你的残差是正态分布的。事实上,您可以可靠地打赌他们不是

  2. 作为对假设的检查,假设检验通常不是一个好主意。非正态性对您的推断的影响通常不是样本大小的函数*,但显着性检验的结果. 即使对实际感兴趣的问题(“这在多大程度上影响我的推断?”)的答案可能“几乎没有”,在大样本量下与正态性的微小偏差也会很明显。相应地,在小样本量下与正态性的大偏差可能不会接近显着性。

    *(在编辑中添加)-实际上这句话太弱了。在 CLT 和斯卢茨基定理成立的任何时候,非正态性的影响实际上都会随着样本量的增加而减少,而拒绝正态性(并且可能避免正态理论程序)的能力会随着样本量的增加而增加......所以当你最能识别非正态性往往是在无关紧要的时候无论如何......当它真正重要时,测试没有帮助,在小样本中。

    好,至少就显着性水平而言。功率仍然可能是一个问题,但如果我们考虑像这里这样的大样本,这也可能不是一个问题。

  3. 更接近测量效应大小的是一些诊断(显示或统计),它以某种方式测量非正态性程度。一个 QQ 图是一个明显的显示,一个样本量和不同样本量的同一总体的 QQ 图至少是同一曲线的两个噪声估计- 显示大致相同的“非正态性”;它至少应该与感兴趣的问题的期望答案大致单调相关。

如果您必须使用测试,Shapiro-Wilk 可能与其他任何测试一样好(Chen-Shapiro 测试通常在共同感兴趣的替代方案上要好一些,但更难找到实现)——但它正在回答您的问题已经知道答案;每次你拒绝拒绝时,它都会给出一个你可以肯定是错误的答案。

夏皮罗-威尔克检验是一种可能性。

夏皮罗-威尔克测试

该测试几乎在所有统计软件包中实现。原假设是残差是正态分布的,因此一个小的 p 值表明您应该拒绝原假设并得出残差不是正态分布的结论。

请注意,如果您的样本量很大,您几乎总是会拒绝,因此残差的可视化更为重要。

来自维基百科:

单变量正态性检验包括 D'Agostino 的 K 平方检验、Jarque-Bera 检验、Anderson-Darling 检验、Cramér-von Mises 标准、Lilliefors 正态性检验(本身是 Kolmogorov-Smirnov 检验的改编版)、 Shapiro-Wilk 检验、Pearson 卡方检验和 Shapiro-Francia 检验。2011 年《统计建模与分析杂志》[1] 的一篇论文得出结论,在比较 Shapiro-Wilk、Kolmogorov-Smirnov、Lilliefors 和 Anderson- 时,Shapiro-Wilk 对给定意义具有最佳功效,紧随其后的是 Anderson-Darling亲爱的测试。