为什么非正态分布的误差会损害我们的重要性陈述的有效性?

机器算法验证 回归 统计学意义 假设 正态假设
2022-03-12 17:43:29

在考虑 OLS 模型时有一个正态假设,即误差是正态分布的。我一直在浏览 Cross Validated ,听起来 Y 和 X 不一定要正常才能使错误正常。我的问题是为什么当我们有非正态分布的错误时,我们的重要性陈述的有效性会受到损害?为什么置信区间会太宽或太窄?

1个回答

为什么当我们有非正态分布的错误时,我们的重要性陈述的有效性会受到损害?为什么置信区间会太宽或太窄?

置信区间基于分子和分母在 t 统计量中的分布方式。

对于正态数据,t 统计量的分子具有正态分布,而分母平方的分布(然后是方差)是卡方分布的特定倍数。当分子和分母也是独立的(只有正常数据才会出现这种情况,因为观测值本身是独立的),整个统计量具有 t 分布。

这意味着像这样的 t 统计量将是一个关键量(它的分布不取决于真正的斜率系数是多少,并且它是未知的函数,这使得它适用于构建置信区间......然后这些区间将在其构建中β^βsβ^βt

如果数据来自其他分布,则统计量不会有 t 分布。例如,如果它是重尾的,则 t 分布的尾尾往往会稍微轻一些(离群观测值对分母的影响大于对分子的影响)。这是一个例子。在这两种情况下,直方图都用于 10,000 次回归:

在此处输入图像描述

左侧的直方图用于当数据条件正常时,n=30(在这种情况下,)。分布看起来应该。之外显示的值很少- 该分布与正态数据的理论分布不太一样,因为统计量不再具有 t 分布。β=0(2,2)

95% 的 t 区间(应该包括我们样本中 95% 的斜率)从 -2.048 到 2.048。对于正态数据,它实际上包含了 10000 个样本斜率的 95.15%。对于倾斜数据,它包括 99.91%。