具有高斯误差的简单线性回归是一个非常好的属性,它不能推广到广义线性模型。
在广义线性模型中,响应遵循给定的分布,给定均值。线性回归遵循这种模式;如果我们有
yi=β0+β1xi+ϵi
与ϵi∼N(0,σ)
那么我们也有
yi∼N(β0+β1xi,σ)
好的,所以响应遵循广义线性模型的给定分布,但对于线性回归,我们也有残差遵循高斯分布。为什么要强调残差是正常的,而不是一般规则?好吧,因为这是更有用的规则。考虑残差的正态性的好处是这更容易检查。如果我们减去估计的均值,所有残差应该具有大致相同的方差和大致相同的均值 (0),并且将大致呈正态分布(注意:我说“大致”是因为如果我们没有完美的估计回归参数,当然我们没有,ϵix。但希望估计有足够的精度,这是可以忽略的!)。
另一方面,查看未调整的,如果它们都有不同的平均值,我们无法真正判断它们是否正常。例如,考虑以下模型:yi
yi=0+2×xi+ϵi
与和ϵi∼N(0,0.2)xi∼Bernoulli(p=0.5)
那么将是高度双峰的,但不会违反线性回归的假设!另一方面,残差将遵循大致正态分布。yi
这里有一些R代码来说明。
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')
