多元回归的假设:正态性假设与恒定方差假设有何不同?
1.残差的正态分布:
当您尝试获取置信区间和/或 p 值时,正态性条件就会发挥作用。
不是高斯马尔可夫条件。
该图试图以蓝色(总体回归线为青色实线)说明总体中点的分布,叠加在大黄点的样本数据集上(其估计回归线绘制为黄色虚线)。显然,这仅适用于概念消费,因为的每个值都有无穷大的点) - 所以它是回归概念的图形图像离散化,作为平均值周围值的连续分布(对应于预测值“独立”变量)在回归变量或解释变量的每个给定值处。
如果我们在模拟的“人口”数据上运行诊断 R 图,我们会得到......
残差的方差沿所有值都是恒定的
典型的情节是:
从概念上讲,引入多个回归变量或解释变量不会改变这个想法。我发现包的动手教程swirl()
非常有助于理解多元回归实际上是一个使因变量相互回归的过程,从而推动模型中的剩余、无法解释的变化;或更简单地说,简单线性回归的矢量形式:
一般的技术是选择一个回归变量,并用它们对那个回归变量的残差替换所有其他变量。
2.残差的变异性几乎是恒定的(同方差):
违反此条件的问题是:
异方差对 OLS 估计量有严重的影响。尽管 OLS 估计量保持无偏,但估计的 SE 是错误的。因此,不能依赖置信区间和假设检验。此外,OLS 估计器不再是 BLUE。
在该图中,方差随着回归量(解释变量)的值而增加,而不是保持不变。在这种情况下,残差是正态分布的,但是这个正态分布的方差会随着解释变量的变化而变化(增加)。
请注意,在第一个图(深蓝色实线)中,“真实”(总体)回归线相对于同方差下的总体回归线没有变化,但直观上很明显,估计值将变得更加不确定。
数据集上的诊断图是...
这对应于“重尾”分布,这是有道理的,我们将所有“并排”垂直高斯图望远镜成一个单一的,这将保持其钟形,但有很长的尾巴。
@Glen_b“......对两者之间区别的完整报道也将考虑homoskedastic-but-not-normal。”
残差高度偏斜,方差随着解释变量的值而增加。
这些将是诊断图...
对应于明显的右偏度。
为了结束循环,我们还会看到具有非高斯误差分布的同方差模型中的偏态:
诊断图为...
这不是 OP 的错,但我开始厌倦阅读这样的错误信息。
我读到这些是使用多元回归模型的条件:
the residuals of the model are nearly normal, the variability of the residuals is nearly constant the residuals are independent, and each variable is linearly related to the outcome.
“多元回归模型”只是一个标签,声明一个变量可以表示为其他变量的函数。
真正的误差项和模型的残差都不需要特别多——如果残差看起来很正常,这有利于后续的统计推断。
误差项的可变性(方差)不必几乎是恒定的——如果不是,我们有一个现在很容易处理的具有异方差性的模型。
残差在任何情况下都不是独立的,因为每个残差都是整个样本的函数。真正的误差项不必是独立的——如果不是,我们有一个具有自相关的模型,虽然比异方差更难,但可以在一定程度上处理。
每个变量不需要与结果线性相关。实际上,“线性”和“非线性”回归之间的区别与变量之间的关系无关,而是与未知系数如何进入关系有关。
可以说,如果前三个成立并且第四个陈述得当,那么我们得到“经典正态线性回归模型”,它只是多元回归模型的一个(尽管历史上是第一个)变体。
Antoni Parellada 用漂亮的图形插图给出了完美的答案。
我只想添加一条评论来总结两个语句之间的区别
模型的残差几乎是正常的
残差的可变性几乎是恒定的
- 语句 1 给出的残差的“形状”是“钟形曲线”。
- 在 Antoni Parellada 的情节 3 中,语句 2 细化了“形状” (恒定)的传播。有 3 条钟形曲线,但它们的传播不同。
没有一组唯一的回归假设,但有几种变体。这些假设集合中的一些假设比其他假设更严格,即更窄。此外,在大多数情况下,您不需要,并且在许多情况下,不能真正假设分布是正常的。
您引用的假设比大多数假设更严格,但它们是用不必要的松散语言表述的。例如,究竟是什么?此外,我们施加假设的不是残差,而是错误。残差是对误差的估计,是不可观察的。这告诉我你引用的来源很差。把它扔掉。
对您的问题的简短回答是,如果您考虑任何分布,例如 Student t 分布,您的错误(我将在我的答案中使用正确的术语),那么您可以看到错误如何具有“几乎恒定”的变化没有来自正态分布,以及“几乎恒定”的方差如何不需要正态分布。换句话说,不,如果没有额外的要求,你不能从另一个假设中设计一个假设。
一个这样的要求可能来自回归模型的一个流行公式,如下 :假设:
- “模型的残差几乎是正常的” - 这是我们在公式中使用的事实,它代表正态(高斯)分布
- “残差的可变性几乎是恒定的” - 这是对所有错误
- “残差是独立的” - 这来自使用不依赖于与错误或回归量
- “每个变量都与结果线性相关” - 这是形式
因此,当我们以这种方式将所有假设捆绑在一两个方程中时,它们似乎都相互依赖,这是不正确的。接下来我将演示这一点。
示例 1
想象一下,我声明了以下模型,而不是上述模型: 在这里,我声明错误来自具有自由度的 Student t 分布。当然,这些误差会有一个恒定的方差,而且它们不是高斯的。