为什么对于估计回归线而言,残差的正态性“几乎不重要”?

机器算法验证 回归 残差 假设
2022-01-29 14:29:01

Gelman 和 Hill (2006) 在 p46 上写道:

通常最不重要的回归假设是误差呈正态分布。事实上,为了估计回归线(与预测单个数据点相比),正态性假设根本不重要。因此,与许多回归教科书相比,我们不建议对回归残差的正态性进行诊断。

格尔曼和希尔似乎没有进一步解释这一点。

格尔曼和希尔正确吗?如果是这样,那么:

  1. 为什么“几乎不重要”?为什么它既不重要也不完全不相关?

  2. 为什么预测单个数据点时残差的正态性很重要?

Gelman, A. 和 Hill, J. (2006)。使用回归和多级/分层模型进行数据分析。剑桥大学出版社

2个回答

因为估计正态性并不完全是一个假设,但主要考虑因素是效率;在许多情况下,一个好的线性估计器会做得很好,在那种情况下(通过高斯马尔可夫),LS 估计将是最好的那些事情 - 那会是好的。(如果你的尾巴很重或很轻,考虑其他东西可能是有意义的)

在测试和 CI 的情况下,虽然假设正常,但通常并不是那么关键(同样,只要尾巴不是很重或很轻,或者可能是其中之一),至少在不是非常-小样本测试和典型 CI 往往具有接近其标称属性(与声称的显着性水平或覆盖率不太远)并且表现良好(典型情况的合理功效或 CI 不比替代方案宽太多) - 当您移动时远离正常情况,功率可能是一个更大的问题,在这种情况下,大样本通常不会提高相对效率,因此如果效应大小使得功率在具有相对较好功率的测试中处于中等水平,则可能非常差对于假设正常的测试。

这种在测试中接近于 CI 的名义属性和显着性水平的趋势是因为几个因素共同作用(其中一个是变量的线性组合趋向于接近正态分布,只要涉及很多值和它们都不占总方差的很大一部分)。

然而,在基于正态假设的预测区间的情况下,正态性相对更为关键,因为区间的宽度强烈依赖于单个值的分布。然而,即使在那里,对于最常见的区间大小(95% 区间),许多单峰分布在平均值的约 2sds 内具有非常接近其分布的 95% 的事实往往会导致正常预测区间的合理性能,即使当分布不正常时。[这并不能很好地延续到更窄或更宽的区间——比如 50% 区间或 99.9% 区间——不过。]

2:在预测单个数据点时,围绕该预测的置信区间假定残差是正态分布的。

这与关于置信区间的一般假设没有太大区别——要有效,我们需要了解分布,最常见的假设是正态性。例如,围绕均值的标准置信区间有效,因为样本均值的分布接近正态性,因此我们可以使用 az 或 t 分布