我猜我有一个非常好的线性回归(它是针对大学项目的,所以我真的不必非常准确)。
关键是,如果我绘制残差与预测值,(根据我的老师)会有异方差的暗示。
但如果我绘制残差的 QQ 图,很明显它们是正态分布的。此外,残差的夏皮罗检验-的价值,所以我认为毫无疑问,残差实际上是正态分布的。
问题:如果残差是正态分布的,那么预测值如何存在异方差?
我猜我有一个非常好的线性回归(它是针对大学项目的,所以我真的不必非常准确)。
关键是,如果我绘制残差与预测值,(根据我的老师)会有异方差的暗示。
但如果我绘制残差的 QQ 图,很明显它们是正态分布的。此外,残差的夏皮罗检验-的价值,所以我认为毫无疑问,残差实际上是正态分布的。
问题:如果残差是正态分布的,那么预测值如何存在异方差?
解决这个问题的一种方法是反过来看:我们如何从正态分布的残差开始并将它们安排为异方差的?从这个角度来看,答案变得显而易见:将较小的残差与较小的预测值相关联。
为了说明,这里是一个显式构造。
左侧的数据相对于线性拟合明显是异方差的(以红色显示)。这是由右侧的残差与预测图驱动的。但是——通过构造——残差的无序集接近于正态分布,如中间的直方图所示。(Shapiro-Wilk 正态性检验中的 p 值为 0.60,通过运行以下代码后发出的R
命令获得。)shapiro.test(residuals(fit))
真实数据也可以是这样的。道德是异方差性表征了残差大小和预测之间的关系,而正态性没有告诉我们残差与其他任何事物的关系。
这是R
此构造的代码。
set.seed(17)
n <- 256
x <- (1:n)/n # The set of x values
e <- rnorm(n, sd=1) # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)] # Generate some y values plus "error" `e`.
fit <- lm(y ~ x) # Regress `y` against `x`.
par(mfrow=c(1,3)) # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
在加权最小二乘 (WLS) 回归中,您可能希望看到的估计残差的随机因素是正态分布的,尽管它通常不是非常重要。估计的残差可能会被考虑在内,如一个简单的(一个回归器并通过原点)回归案例所示,在第 1 页的底部,以及https://www.researchgate.net/publication的第 2 页和第 7 页的下半部分/263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys 无论如何,这可能有助于显示正常性可以进入图片的位置。