McElreath 似乎在诋毁要求回归量(在等号右侧,有时是“独立”或“预测”变量)和回归量(在等号左侧,有时是“依赖”或“结果” )的反复实践变量)在OLS回归之类的上下文中呈正态分布(即“高斯”)。
事实上,这些变量都不需要正态分布,甚至几乎不需要正态分布。残差需要这个假设,就像这里的简单模型一样:
yi=β0+βxxi+εi; where ε∼N(0,σ)
证明这一点相对容易:
n <- 200
x <- runif(n)
b0 <- 10
bx <- -2
s <- 0.1
e <- rnorm(n,0,s)
y <- b0 + bx*x + e
summary(lm(y~x))
hist(y)
hist(x)
hist(e)
请注意:
- 你相当充分地估计β0,βx, 和σ使用 OLS MLE 估计器:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.00007 0.01337 747.85 <2e-16 ***
x -2.00687 0.02235 -89.81 <2e-16 ***
Residual standard error: 0.0957 on 198 degrees of freedom
- 的直方图y和x与正态分布完全不同:

- 的直方图ε大约是正常的:

当然,除了 OLS 之外,还有其他线性回归模型(包括多元回归),但 MLE 估计经常用于此类模型,并且变量分布与残差的合并广泛反映在本网站上的问题、文献中和在研究会议上。
结果是我们应该努力在应用中理解我们的建模假设(无论我们的数据是连续的、可计数的还是你有什么),而不是把时间浪费在无意义的努力(即“组织学”)上,比如标准化我们所有的回归变量。