在线性回归中,如果随机误差为 N(0,σ2σ2) 这是否意味着 Y~N(α + βXα+βX,σ2σ2)

机器算法验证 回归 正态分布 高斯过程
2022-04-08 19:11:04

在线性回归中,如果随机误差呈正态分布,这是否意味着响应也正常?特别是如果ϵ〜N(0,σ2) 这是否意味着 Y~N(α+βX,σ2)。更具体地说,我问的是 Y 是否具有正态分布。我知道平均值是α+βX和方差将是σ2但是可以假设分布是正态的,因为ϵ是正常的?为什么?

4个回答

正如在这个相关问题中指出的那样,线性回归中误差项的正态性不足以确保响应变量的边际正态性。后者也受到解释变量分布的影响,在回归分析中,解释变量不被认为是正态的。

在您指定的线性回归模型下,条件分布Y是:

Y|xN(α+βx,σ2).

边际分布Y是:

FY(y)P(Yy)=Φ(yαβxσ)fX(x)dx,

其中是标准正态分布的 CDF。这导致正态分布的特殊情况下,但在解释变量具有其他分布的更一般情况下,您通常会得到响应变量的边际分布,该分布不正常.ΦXN

答案是最确定的“不”。的边际正态性并不意味着的条件分布是正态的。请参阅此处的反例:ϵY

https://stats.stackexchange.com/a/486951/102879

x 固定值的分布是正态的。Y 不正常。只需查看响应的直方图即可。它看起来不像一个正态分布。但是,如果您查看固定 x 处的分布,那么它看起来很正常。

是的,如果 那么我们可以说这源于如果随机变量那么的结果,例如如果然后εN(0,σ2) Y=α+βx+ϵYN(α+βx,σ2)XN(μ,σ2)X+aN(μ+a,σ2)XN(0,32)X+2N(2,32)