机器算法验证 - 为什么非正态分布的误差会损害我们的重要性陈述的有效性？ - 吾爱随笔录

机器算法验证回归统计学意义假设正态假设

2022-03-12 17:43:29

在考虑 OLS 模型时有一个正态假设，即误差是正态分布的。我一直在浏览 Cross Validated ，听起来 Y 和 X 不一定要正常才能使错误正常。我的问题是为什么当我们有非正态分布的错误时，我们的重要性陈述的有效性会受到损害？为什么置信区间会太宽或太窄？

1个回答

为什么当我们有非正态分布的错误时，我们的重要性陈述的有效性会受到损害？为什么置信区间会太宽或太窄？

置信区间基于分子和分母在 t 统计量中的分布方式。

对于正态数据，t 统计量的分子具有正态分布，而分母平方的分布（然后是方差）是卡方分布的特定倍数。当分子和分母也是独立的（只有正常数据才会出现这种情况，因为观测值本身是独立的），整个统计量具有 t 分布。

这意味着像这样的 t 统计量将是一个关键量（它的分布不取决于真正的斜率系数是多少，并且它是未知的函数，这使得它适用于构建置信区间......然后这些区间将在其构建中 $\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

如果数据来自其他分布，则统计量不会有 t 分布。例如，如果它是重尾的，则 t 分布的尾尾往往会稍微轻一些（离群观测值对分母的影响大于对分子的影响）。这是一个例子。在这两种情况下，直方图都用于 10,000 次回归：

在此处输入图像描述

左侧的直方图用于当数据条件正常时，n=30（在这种情况下，）。分布看起来应该。之外显示的值很少- 该分布与正态数据的理论分布不太一样，因为统计量不再具有 t 分布。 $\beta=0$ $(-2,2)$

95% 的 t 区间（应该包括我们样本中 95% 的斜率）从 -2.048 到 2.048。对于正态数据，它实际上包含了 10000 个样本斜率的 95.15%。对于倾斜数据，它包括 99.91%。

其它你可能感兴趣的问题