因变量的正态性=残差的正态性?

机器算法验证 正态分布 残差 正态假设
2022-01-19 09:43:38

这个问题似乎一直在抬头,为了我自己对统计数据的理解(和理智!),我试图将其斩首。

一般线性模型(t检验、方差分析、回归等)的假设包括“正态性假设”,但我发现这很少被清楚地描述。

我经常遇到统计教科书/手册等。简单地说“正态假设”适用于每个(即分类 X 变量),我们应该检查每个组的正态性偏差。

问题

  1. 假设是指 Y 的还是 Y 的残差

  2. 对于特定组,是否有可能具有 Y的强烈非正态分布(例如,偏斜)但 Y残差的近似(或至少更正态)分布

    其他来源描述了该假设与模型的残差有关(在有组的情况下,例如 t 检验 / ANOVA),我们应该检查这些残差的正态性偏差(即,只有一个 QQ 图/检验跑)。

  3. 模型残差的正态性是否意味着的残差正态性?换句话说,我们是否应该只检查模型残差(与许多文本中的说明相反)?

    为了把它放在一个上下文中,考虑这个假设的例子:

    • 我想比较两个种群 (X) 之间的树高 (Y)。
    • 在一个种群中,Y 的分布是强烈右偏的(即大多数树矮,很少高树),而另一种几乎是正常的
    • 在正态分布的人群中,身高总体较高(表明可能存在“真实”差异)。
    • 数据的转换并没有显着改善第一人口的分布。
  4. 首先,在给定高度分布完全不同的情况下比较组是否有效?

  5. 我如何在这里处理“正常假设”?一个群体的召回高度不是正态分布的。我是否分别检查两个总体的残差模型的残差(t 检验)?


请在回复中按数字参考问题,经验告诉我,人们很容易迷路或走神(尤其是我!)。请记住,我不是统计学家;尽管我对统计数据有合理的概念性(即,不是技术性的!)理解。

PS,我已经搜索了档案并阅读了以下没有巩固我理解的线程:

4个回答

可能有助于您理解的一点:

如果X是正态分布的并且一种b是常数,那么是的=X-一种b也是正态分布的(但可能具有不同的均值和方差)。

由于残差只是 y 值减去估计的平均值(标准化残差也除以标准误差的估计值),因此如果 y 值是正态分布的,那么残差也是如此,反之亦然。因此,当我们谈论理论或假设时,我们谈论哪个并不重要,因为一个暗示另一个。

因此,对于这导致的问题:

  1. 是的,两者,要么
  2. 不,(但是,各个 y 值将来自具有不同方法的法线,如果组合在一起,它们可能看起来不正常)
  3. 残差的正态性意味着组的正态性,但是在某些情况下,最好按组检查残差或 y 值(合并可能会掩盖组中明显的非正态性)或在其他情况下一起查看(观察不足每组确定,但你可以一起判断)。
  4. 这取决于您所说的比较是什么意思,您的样本量有多大,以及您对“近似”的感觉。正态性假设仅对结果的测试/区间是必需的,您可以拟合模型并描述点估计是否存在正态性。中心极限定理说,如果样本量足够大,那么即使残差不是,估计值也将近似正常。
  5. 这取决于您要回答的问题以及您对“近似”的满意程度。

另一个重要的理解点(但在学习中经常被混为一谈)是这里有两种残差:理论残差是观察值与真实理论模型之间的差异,以及观察到的残差是差异在观测值和当前拟合模型的估计值之间。我们假设理论残差是独立同分布的。观察到的残差不是 i、i 或分布正态(但平均值为 0)。然而,出于实际目的,观察到的残差确实估计了理论残差,因此仍可用于诊断。

简短的回答:

  1. 残差
  2. 取决于,两种方法都有优点和缺点
  3. 为什么不?比较中位数而不是平均值可能更有意义。
  4. 从您告诉我们的情况来看,可能违反了正态性假设

更长的答案:

假设是因变量 (y) 是正态分布的,但对于不同的组具有不同的平均值。因此,如果您仅绘制 y 的分布,它很容易看起来与您的标准钟形正态曲线非常不同。残差代表 y 的分布,这些差异均值“被过滤掉”。

或者,您可以分别查看 y 在每个组中的分布。这也过滤掉了组间均值的差异。这样做的好处是,您还可以获得有关每个组中分布的信息,这在您的情况下似乎是相关的。缺点是每个组包含的观察值少于查看残差时获得的组合数据集。此外,如果您有很多组,您将无法有意义地比较组,例如因为您在模型中输入了许多预测变量或在模型中输入了(准)连续预测变量。因此,如果您的模型仅包含一个分类预测变量,并且每组中的观察数量足够大,那么单独检查每组中 y 的分布可能是有意义的。

根据假设的定义,随机变量是一个线性组合X和残差,所有其他事情都是不变的。
如果X不是随机的,并且误差项是正常的,那么是正常的,残差也是正常的。

问题1)
假设是指两件事。首先,对于误差项的正态性。第二,对模型的线性和完整性。这两件事都是推理所必需的。但如果满足这些假设,那么残差e是正态分布的,并且可以很容易地计算解决方案,因为它们取决于误差项ε, 给定X.
例如分布在常规 OLS 模型中可能是|X-ñ(Xβ,σ2).
如果你的Xgroup 不正常,那么这可能会歪曲无条件的. 事实上,这种情况很有可能发生。不过重要的是分布|X是正常的。

问题 2)
是的,可能有偏斜的值因为X. 然而,如果满足所有假设,残差将是正常的(你怎么能做区间和假设检验?!)。对于您问题的这一部分,此线程中有一个非常明确的答案: 如果残差是正态分布的,但 y 不是?

问题 3)
使用需要正态性的线性模型的重要一点是,不正常的残差,无论这是否在一个组中,都是您的模型可能不适合您的数据的重要指标。
如果你正在做 ANOVA,那么你的整体残差当然不必是正常的(或者更确切地说是同方差的),那是没有意义的。不过,在回归中,您最好有一个模型,其最终具有整体正态残差。如果不是,您的区间估计器和测试将是错误的。这可能是某些自相关或缺失变量偏差的情况。如果模型是 100% 正确的(可能包括结构中断和必要时的加权),假设正常的误差项并不牵强,甚至以 0 为中心。实际上,问题经常变成:如果样本我们可以摆脱这些事情够大吗?没有明确的答案,但对于 100% 正确的方法,是的,所有残差都应该是正常的。

问题 4 和 5)
这取决于您比较的意思。给定正态误差项的假设,您可以基于两个不同分布的假设进行测试。您还可以使用 GLS 估计进行回归以解释不同的分布参数 - 如果您有正确的模型......我猜您的组本身可以作为指标/二元变量?
那么可能很难推断残差的分布是正常的 - 结果是虽然您可以对数据进行处理,但它不会基于常规 OLS。
但这取决于您要对数据做什么。

重要的是:您仍然无法绕过您正在使用的线性模型的假设。您可以通过假设渐近大样本属性来使问题变得更好,但是如果我猜是因为您要求的确定答案不是您想要的。
在您的示例中,如果您有可能解释偏度的数据,您将在残差和|X. 但是,如果您只是使用二元指标进行回归,那么您基本上使用了错误的模型。您确实可以对此进行测试,但是当涉及到回归时,您的区间结果将无效,本质上您缺少完整模型的数据。

我认为一个好的方法是研究常规 OLS 的代数,重点关注结果分布。

对问题 3 的澄清:残差的正态性绝对意味着组内的正态性。残差的边际分布可以是正态的,而条件则不是。这是真的,因为非正态分布的混合可能是正态的;有关示例,请参见https://stats.stackexchange.com/a/486951/102879 。