在考虑 OLS 模型时有一个正态假设,即误差是正态分布的。我一直在浏览 Cross Validated ,听起来 Y 和 X 不一定要正常才能使错误正常。我的问题是为什么当我们有非正态分布的错误时,我们的重要性陈述的有效性会受到损害?为什么置信区间会太宽或太窄?
为什么非正态分布的误差会损害我们的重要性陈述的有效性?
机器算法验证
回归
统计学意义
假设
正态假设
2022-03-12 17:43:29
1个回答
为什么当我们有非正态分布的错误时,我们的重要性陈述的有效性会受到损害?为什么置信区间会太宽或太窄?
置信区间基于分子和分母在 t 统计量中的分布方式。
对于正态数据,t 统计量的分子具有正态分布,而分母平方的分布(然后是方差)是卡方分布的特定倍数。当分子和分母也是独立的(只有正常数据才会出现这种情况,因为观测值本身是独立的),整个统计量具有 t 分布。
这意味着像这样的 t 统计量将是一个关键量(它的分布不取决于真正的斜率系数是多少,并且它是未知的函数,这使得它适用于构建置信区间......然后这些区间将在其构建中
如果数据来自其他分布,则统计量不会有 t 分布。例如,如果它是重尾的,则 t 分布的尾尾往往会稍微轻一些(离群观测值对分母的影响大于对分子的影响)。这是一个例子。在这两种情况下,直方图都用于 10,000 次回归:
左侧的直方图用于当数据条件正常时,n=30(在这种情况下,)。分布看起来应该。之外显示的值很少- 该分布与正态数据的理论分布不太一样,因为统计量不再具有 t 分布。
95% 的 t 区间(应该包括我们样本中 95% 的斜率)从 -2.048 到 2.048。对于正态数据,它实际上包含了 10000 个样本斜率的 95.15%。对于倾斜数据,它包括 99.91%。
其它你可能感兴趣的问题