机器算法验证 - Y必须是正态分布的误解从何而来？ - 吾爱随笔录

Y必须是正态分布的误解从何而来？

机器算法验证回归最小二乘线性模型因变量

2022-02-03 07:07:13

看似有名的消息来源声称因变量必须是正态分布的：

模型假设：是正态分布的，误差是正态分布的，和独立的，并且是固定的，并且恒定方差。 $Y$ $e_i \sim N(0,\sigma^2)$ $X$ $\sigma^2$

宾夕法尼亚州立大学，STAT 504 离散数据分析

其次，线性回归分析要求所有变量都是多元正态的。

统计解决方案，线性回归的假设

当响应变量具有正态分布时，这是合适的

维基百科，广义线性模型

对于这种误解如何或为何传播开来，是否有很好的解释？它的起源是否已知？

有关的

关于响应变量的线性回归和假设

3个回答

对于这种误解如何/为什么传播有很好的解释吗？它的起源是否已知？

我们通常在许多学科中教给本科生一个“简化”版本的统计学。我是心理学专业的，当我试图告诉本科生p值是“数据的概率——或者更极端的数据——假设原假设为真”，同事告诉我，我所涵盖的细节比我需要的要多覆盖。我让它变得比它必须的更困难，等等。由于课堂上的学生对统计数据有如此广泛的舒适度（或缺乏），教师通常保持简单：“我们认为这是一个可靠的发现，如果p < .05”，例如，而不是给他们p值的实际定义。

我认为这就是为什么误解传播的原因。例如，您可以将模型编写为：

$Y = \beta_0 + \beta_1X + \epsilon$ 在哪里 $\epsilon \sim \text{N}(0, \sigma^2_\epsilon)$

这可以重写为：

$Y|X \sim \text{N}(\beta_0 + \beta_1X, \sigma^2_\epsilon)$

这意味着“Y，以 X 为条件，正态分布，具有预测值的平均值和一些方差。”

这很难解释，所以速记的人可能会说：“Y 必须是正态分布的。” 或者当最初向他们解释时，人们误解了条件部分——因为老实说，它令人困惑。

因此，为了不让事情变得非常复杂，教师只需简化他们所说的内容，以免过度混淆大多数学生。然后人们带着这种误解继续他们的统计教育或统计实践。在我开始在 Stan 中进行贝叶斯建模之前，我自己并没有完全理解这个概念，这需要你以这种方式编写你的假设：

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

此外，在许多带有 GUI 的统计包中（看着你，SPSS），检查边际分布是否正态分布（简单直方图）比检查残差是否正态分布（运行回归，保存残差，对这些残差运行直方图）。

因此，我认为这种误解主要是由于教师试图削减细节以防止学生在以正确方式学习它的人之间产生混淆、真实和可理解的混淆，而这两者都通过易于检查边缘正态性而得到加强。最用户友好的统计软件包。

回归分析对初学者来说很困难，因为不同的起始假设暗示了不同的结果。较弱的初始假设可以证明某些结果是合理的，但是当您添加更强的假设时，您可以获得更强的结果。不熟悉结果的完整数学推导的人通常会误解结果所需的假设，要么将他们的模型设置得太弱而无法获得所需的结果，要么提出一些不必要的假设，认为这些假设是结果所必需的.

尽管可以添加更强的假设来获得额外的结果，但回归分析本身关注的是响应向量的条件分布。如果一个模型超出了这个范围，那么它就进入了多元分析的领域，而不是严格（只是）一个回归模型。由于通常在回归中引用分布结果而不总是小心地指定它们是条件分布（给定设计矩阵中的解释变量），因此问题变得更加复杂。在模型超出条件分布的情况下（通过假设解释向量的边际分布），用户应该小心指定这种差异；不幸的是，人们并不总是对此很小心。

Homoskedastic 线性回归模型：通常使用的最早起点是假设模型形式和前两个误差矩，根本没有任何正态性假设：

Y = x β + ε E (ε | x) = 0 V (ε | x) \propto I .

$\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\quad \quad \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{x}) = \boldsymbol{0} \quad \quad \mathbb{V}(\boldsymbol{\varepsilon} | \boldsymbol{x}) \propto \boldsymbol{I}.$

此设置足以让您获得系数的 OLS 估计量、误差方差的无偏估计量、残差和所有这些随机量的矩（以设计矩阵中的解释变量为条件）。它不允许您获得这些量的完整条件分布，但如果的限制行为进行了一些额外的假设，它确实允许诉诸渐近分布。更进一步，通常假设误差向量具有特定的分布形式。 $n$ $\boldsymbol{x}$

正态误差：同方差线性回归模型的大多数处理都假设误差向量是正态分布的，结合矩假设给出：

ε | x \sim N (0, σ^{2} I) .

$\boldsymbol{\varepsilon} | \boldsymbol{x} \sim \text{N}(\boldsymbol{0}, \sigma^2 \boldsymbol{I}).$

这个额外的假设足以确保系数的 OLS 估计量是模型的 MLE，这也意味着系数估计量和残差是正态分布的，并且误差方差的估计量具有缩放的卡方分布（所有以设计矩阵中的解释变量为条件）。它还确保响应向量是条件正态分布的。这给出了以分析中的解释变量为条件的分布结果，从而允许构建置信区间和假设检验。如果分析师想要对响应的边际分布进行调查，他们需要进一步假设模型中解释变量的分布。

联合正态解释变量：同方差线性回归模型的某些处理比标准处理更进一步，并且不以固定解释变量为条件。（可以说这是从回归建模到多变量分析的过渡。）这种最常见的模型假设解释向量是 IID 联合法线随机向量。设为第个解释向量（行），我们有： $\boldsymbol{X}_{(i)}$ $i$ $i$

X_{(1)}, . . ., X_{(n)} \sim IID N (μ_{X}, Σ_{X}) .

$\boldsymbol{X}_{(1)}, ..., \boldsymbol{X}_{(n)} \sim \text{IID N}(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X).$

这个额外的假设足以确保响应向量是边缘正态分布的。这是一个强有力的假设，通常不会在大多数问题中强加。如前所述，这将模型置于回归建模领域之外并进入多变量分析。

'Y 必须是正态分布的'

必须？

在您提到它的情况下，它是草率的语言（缩写为“Y 中的错误必须是正态分布的”），但他们并没有真正（强烈）说响应必须是正态分布的，或者至少它似乎没有我知道他们的话是这样的。

宾夕法尼亚州立大学课程材料

谈到“连续变量 ” $Y$ ，也谈到“ ”，如，我们可以将视为“有条件的”评论中所谓的变形虫，正态分布， $Y_i$

E (Y_{i}) = β_{0} + β_{1} x_{i}

$E(Y_i) = \beta_0 + \beta_1 x_i$

Y_{i}

$Y_i$

Y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})

$Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2)$

本文交替使用和。在整篇文章中，有人谈到“Y 的分布”，例如： $Y$ $Y_i$

在解释 GLM（二元逻辑回归）的某些变体时，

随机分量：假设的分布为，... $Y$ $Binomial(n,\pi)$
在某些定义中

随机分量——指响应变量（）的概率分布；例如，线性回归中的正态分布，或二元逻辑回归 $Y$ $Y$ $Y$

但是在其他一些时候，他们也指的是而不是： $Y_i$ $Y$

因变量不需要是正态分布的，但它通常假定来自指数族的分布（例如二项式、泊松、多项式、正态...） $Y_i$

统计解决方案网页

是一个极其简短、简化、程式化的描述。我不确定你应该认真对待这件事。例如，它谈到

..要求所有变量都是多元正态的...

所以这不仅仅是响应变量，

而且“多变量”描述符也很模糊。我不知道如何解释。

维基百科文章

在括号中解释了一个额外的上下文：

普通线性回归将给定未知量（响应变量、随机变量）的期望值预测为一组观察值（预测变量）的线性组合。这意味着预测变量的恒定变化会导致响应变量的恒定变化（即线性响应模型）。当响应变量具有正态分布时（直观地说，当响应变量可以在没有固定“零值”的任一方向上基本上无限地变化时，或更一般地对于仅变化相对较小量的任何量，例如人类高度）。

这个“没有固定的零值”似乎表明当具有无限域（从负无穷到正无穷）时线性组合 的情况，而通常许多变量都有一些有限的截止值（例如不允许负值的计数）。 $y+\epsilon$ $\epsilon \sim N(0,\sigma)$

2012 年3 月 8 日已添加特定行，但请注意，维基百科文章的第一行仍为“普通线性回归的灵活泛化，允许响应变量具有除正态分布以外的误差分布模型” ，而不是这么多（不是到处）错了。

结论

所以，基于这三个例子（这确实会产生误解，或者至少会被误解），我不会说“这种误解已经蔓延”。或者至少在我看来，这三个示例的意图并不是要证明 Y 必须是正态分布的（尽管我确实记得这个问题之前在 stackexchange 上出现过，正态分布错误和正态分布响应变量之间的交换很容易制作）。

因此，在我看来，“Y 必须是正态分布”的假设不像是普遍的相信/误解（就像在像红鲱鱼一样传播的东西中），而更像是一个常见的错误（不是传播而是每次都是独立制造的））。

附加评论

该网站上的错误示例在以下问题中

如果残差是正态分布的，但 y 不是？

我认为这是一个初学者问题。它没有出现在宾夕法尼亚州立大学课程材料、维基百科网站等材料中，最近在评论中提到了“用 R 扩展线性回归”一书。

这些作品的作者确实正确理解了这些材料。实际上，他们使用诸如“Y 必须是正态分布”之类的短语，但根据上下文和使用的公式，您可以看到它们都表示“Y，以 X 为条件，必须是正态分布”，而不是“边缘 Y 必须正态分布”。他们自己并没有误解这个想法，至少这个想法在统计学家和编写书籍和其他课程材料的人中并不普遍。但误读他们的模棱两可的话，确实可能会造成误解。

其它你可能感兴趣的问题

上一篇数理统计视频下一篇我们如何确定小样本何时具有统计显着性？