不 ,残差是Y值条件_X(减去预测平均值Y在每个点X)。你可以改变X任何你想要的方式(X+10,X−1/5,X/π) 和Y对应的值X在给定点的值X不会改变。因此,条件分布Y(IE,Y|X) 将是相同的。也就是说,它是否正常,就像以前一样。(为了更全面地理解这个话题,它可能会帮助你在这里阅读我的答案:如果残差是正态分布的,但 Y 不是?)
什么变化X可能做(取决于您使用的数据转换的性质)是改变之间的功能关系X和Y. 随着非线性变化X(例如,为了消除偏斜)之前正确指定的模型将被错误指定。的非线性变换X通常用于线性化之间的关系X和Y,使关系更易于解释,或解决不同的理论问题。
有关非线性变换如何改变模型以及模型回答的问题(重点是对数变换)的更多信息,阅读这些优秀的 CV 线程可能会有所帮助:
线性变换可以改变参数的值,但不会影响函数关系。例如,如果您将两者都居中X和Y在运行回归之前,截距,β^0, 会变成0. 同样,如果你划分X乘以一个常数(比如从厘米变为米),斜率将乘以该常数(例如,β^1 (m)=100×β^1 (cm), 那是Y1 米以上的高度是 1 厘米以上的 100 倍)。
另一方面,非线性变换Y 会影响残差的分布。事实上,转型Y是标准化残差的常见建议。这种转换是否会使它们或多或少正常取决于残差的初始分布(而不是Y) 和使用的转换。一个常见的策略是优化参数λBox-Cox 分布族。这里需要注意一点:非线性变换Y可以使您的模型错误指定,就像X能够。
现在,如果两者都 X和Y正常吗?实际上,这甚至不能保证联合分布是双变量正态分布(请参阅@cardinal 在这里的出色回答:是否有可能有一对联合分布不是 Gaussian 的高斯随机变量)。
当然,这些看起来确实是相当奇怪的可能性,那么如果边际分布看起来是正态的,而联合分布也看起来是二元正态的,这是否需要残差也服从正态分布呢?正如我试图在我上面链接的答案中展示的那样,如果残差是正态分布的,则Y取决于分布X. 然而,残差的正态性由边际的正态性驱动是不正确的。考虑这个简单的例子(用 编码R
):
set.seed(9959) # this makes the example exactly reproducible
x = rnorm(100) # x is drawn from a normal population
y = 7 + 0.6*x + runif(100) # the residuals are drawn from a uniform population
mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -0.4908 -0.2250 -0.0292 0.2539 0.5303
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 7.48327 0.02980 251.1 <2e-16 ***
# x 0.62081 0.02971 20.9 <2e-16 ***
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared: 0.8167, Adjusted R-squared: 0.8148
# F-statistic: 436.7 on 1 and 98 DF, p-value: < 2.2e-16
在图中,我们看到两个边缘看起来都相当正态,联合分布看起来相当二元正态。尽管如此,残差的均匀性显示在他们的 qq 图中。相对于正态分布,两条尾巴都下降得太快(确实必须如此)。