为什么线性回归对残差有假设,但广义线性模型对响应有假设?

机器算法验证 回归 广义线性模型 假设 线性的
2022-02-11 20:22:58

为什么线性回归和广义模型的假设不一致?

  • 在线性回归中,我们假设残差来自高斯
  • 在其他回归(逻辑回归、毒物回归)中,我们假设响应来自某种分布(二项式、泊松等)。

为什么有时假设剩余而其他时间假设响应?是不是因为我们要导出不同的属性?


编辑:我认为mark999 的显示两种形式是相等的。但是,我对 iid 确实还有一个疑问:

我的另一个问题, 逻辑回归是否有独立同分布的假设?显示广义线性模型没有独立同分布假设(独立但不相同)

对于线性回归,如果我们对残差提出假设,我们将有独立同分布,但如果我们对响应提出假设,我们将有独立但不相同的样本(不同的高斯具有不同的),这是真的吗?μ

2个回答

具有高斯误差的简单线性回归是一个非常好的属性,它不能推广到广义线性模型。

在广义线性模型中,响应遵循给定的分布,给定均值线性回归遵循这种模式;如果我们有

yi=β0+β1xi+ϵi

ϵiN(0,σ)

那么我们也有

yiN(β0+β1xi,σ)

好的,所以响应遵循广义线性模型的给定分布,但对于线性回归,我们有残差遵循高斯分布。为什么要强调残差是正常的,而不是一般规则?好吧,因为这是更有用的规则。考虑残差的正态性的好处是这更容易检查。如果我们减去估计的均值,所有残差应该具有大致相同的方差和大致相同的均值 (0),并且将大致呈正态分布(注意:我说“大致”是因为如果我们没有完美的估计回归参数,当然我们没有,ϵix但希望估计有足够的精度,这是可以忽略的!)。

另一方面,查看未调整的,如果它们都有不同的平均值,我们无法真正判断它们是否正常。例如,考虑以下模型:yi

yi=0+2×xi+ϵi

ϵiN(0,0.2)xiBernoulli(p=0.5)

那么将是高度双峰的,但不会违反线性回归的假设!另一方面,残差将遵循大致正态分布。yi

这里有一些R代码来说明。

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

直方图

假设并不矛盾。如果对于,假设 误差正态分布,均值为 0和方差,这与假设条件相同,响应正态分布,均值 和方差i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

这是因为以为条件,我们将视为常数。Xi1,,Xikβ0+β1Xi1++βkXik

通常具有正态误差的多元线性回归模型是具有正态响应和恒等链接的广义线性模型。