回归是否适用于非正态分布的数据?

机器算法验证 回归 假设
2022-03-29 09:52:31

我的数据的直方图

我正在尝试查看变量 x 和 y 是否一起或单独显着影响 Q_7(上面的直方图)。我已经运行了 Shapiro-Wilk 正态性检验并得到以下结果

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

有了这个分布,下面的回归会起作用吗?还是我应该做另一项测试?

lm(Q_7 ~ x*y)
2个回答

回归分析假设数据是正态分布的,条件是回归模型中的变量也就是说,如果这是回归模型:

y=Xβ+ε
在哪里X是你的回归变量矩阵,y是要解释的数据(向量),β是回归量的系数向量,并且ε是随机变异性(通常被认为是噪声),则正态性假设严格适用于ε,_y(编辑:嗯,严格来说它适用于条件分布y|X(与分布相同ε),但不是边际分布y)。换句话说,一旦考虑了回归变量的影响,数据就应该是正态分布的,但之前不是(必然)。

你在这里测试的是分布y, 你要测试的是分布ε. 你当然不知道ε,但您可以通过运行回归并检查残差的分布来估计它ε^=yXβ^(在哪里β^是回归的估计系数)。这些残差ε^是一个估计ε,因此它们的分布将是ε.

简短的回答是肯定的。

首先(正如 Ruben van Bergen 所指出的),y(或者X,就此而言)不相关。如果您要做出分配假设,那将取决于您的残差ε, 所以这是你应该检查的。

但更重要的是,您根本不需要正态性假设来进行估计。您正在使用 R 的lm函数,它使用普通最小二乘法 (OLS)估计您的模型。该方法将为您提供对期望值的正确估计Y有条件的X只要:

  • E[ε|X]=0(没有外部因素影响您的结果和解释变量)。
  • Var(ε)<(您的残差具有有限方差)。

如果您进一步假设残差不相关并且它们都具有相同的方差,则适用高斯-马尔可夫定理并且 OLS 是最佳线性无偏估计量 (BLUE)。

如果您的残差是相关的或具有不同的方差,那么 OLS 仍然有效,但它可能不太精确,这必须反映在您报告估计的置信区间的方式中(例如使用稳健的标准误差)。

如果您还假设残差是正态分布的,则 OLS 会变得渐近有效,因为它等效于最大似然。

因此,如果您的数据呈正态分布,回归可能会更好,但如果不是,它仍然可以工作。