正态分布的 X 和 Y 是否更有可能导致正态分布的残差?

机器算法验证 回归 正态分布 数据转换 残差 假设
2022-03-05 06:02:16

这里讨论了对线性回归中正态性假设的误解(“正态性”指的是 X 和/或 Y 而不是残差),并且发帖人询问是否可能有非正态分布的 X 和 Y并且仍然有正态分布的残差。

我的问题是:正态分布的 X 和 Y 是否更有可能导致正态分布的残差?有很多相关的帖子,但我不相信有人特别问过这个问题。

我意识到,如果只有一个回归要做,这可能是一个微不足道的问题,但如果有多个测试,那就更少了。假设我有 100 个 X 变量,它们都具有相同的偏差,我想全部测试它们。如果我将它们全部转换为正态分布,由于非正态分布的残差,我可能需要重新检查的 X 变量更少(使用不同/无转换),或者预回归转换是否完全是任意的?

2个回答

,残差是Y条件_X(减去预测平均值Y在每个点X)。你可以改变X任何你想要的方式(X+10,X1/5,X/π) 和Y对应的值X在给定点的值X不会改变。因此,条件分布Y(IE,Y|X) 将是相同的。也就是说,它是否正常,就像以前一样。(为了更全面地理解这个话题,它可能会帮助你在这里阅读我的答案:如果残差是正态分布的,但 Y 不是?

什么变化X可能做(取决于您使用的数据转换的性质)是改变之间的功能关系XY. 随着非线性变化X(例如,为了消除偏斜)之前正确指定的模型将被错误指定。的非线性变换X通常用于线性化之间的关系XY,使关系更易于解释,或解决不同的理论问题。

有关非线性变换如何改变模型以及模型回答的问题(重点是对数变换)的更多信息,阅读这些优秀的 CV 线程可能会有所帮助:

线性变换可以改变参数的值,但不会影响函数关系。例如,如果您将两者都居中XY在运行回归之前,截距,β^0, 会变成0. 同样,如果你划分X乘以一个常数(比如从厘米变为米),斜率将乘以该常数(例如,β^1 (m)=100×β^1 (cm), 那是Y1 米以上的高度是 1 厘米以上的 100 倍)。


另一方面,非线性变换Y 影响残差的分布。事实上,转型Y是标准化残差的常见建议。这种转换是否会使它们或多或少正常取决于残差的初始分布(而不是Y) 和使用的转换。一个常见的策略是优化参数λBox-Cox 分布族。这里需要注意一点:非线性变换Y可以使您的模型错误指定,就像X能够。


现在,如果两者都 XY正常吗?实际上,这甚至不能保证联合分布是双变量正态分布(请参阅@cardinal 在这里的出色回答:是否有可能有一对联合分布不是 Gaussian 的高斯随机变量)。

当然,这些看起来确实是相当奇怪的可能性,那么如果边际分布看起来是正态的,而联合分布也看起来是二元正态的,这是否需要残差也服从正态分布呢?正如我试图在我上面链接的答案中展示的那样,如果残差是正态分布的,则Y取决于分布X. 然而,残差的正态性由边际的正态性驱动是不正确的。考虑这个简单的例子(用 编码R):

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

在此处输入图像描述

在图中,我们看到两个边缘看起来都相当正态,联合分布看起来相当二元正态。尽管如此,残差的均匀性显示在他们的 qq 图中。相对于正态分布,两条尾巴都下降得太快(确实必须如此)。

简短的回答是在经典的简单回归理论中,X 是固定的并假设已知(参见,例如,http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ),即使没有任何测量误差,您的最小二乘 beta 也可能存在偏差甚至不一致(请参阅https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu/mrg217/public/measurement_handouts.pdf&cd=2&ved=0CCMQFjAB&usg=AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ&sig2=4lAnOQO23FiZbZ7323jOzA )。

关于使 X 成为变量,关于高斯-马尔可夫定理的维基百科非常简要地指出,引用:

“在 OLS 的大多数处理中,假设数据X是固定的。这种假设被认为不适合像计量经济学这样的主要非实验科学。[2] 相反,高斯-马尔可夫定理的假设是以X为条件的”

我认为这是从科学到艺术或艺术/科学的一次重大的令人不快的转变。