线性模型的假设以及如果残差不是正态分布该怎么办

机器算法验证 线性模型 残差 假设 正态假设
2022-01-29 17:22:49

我对线性回归的假设有点困惑。

到目前为止,我检查了是否:

  • 所有解释变量都与响应变量线性相关。(情况就是这样)
  • 解释变量之间存在共线性。(几乎没有共线性)。
  • 我的模型的数据点的库克距离低于 1(就是这种情况,所有距离都低于 0.4,所以没有影响点)。
  • 残差是正态分布的。(情况可能并非如此)

但我随后阅读了以下内容:

经常出现违反正态性的原因是(a)因变量和/或自变量的分布本身是显着非正态的,和/或(b)违反了线性假设。

问题 1 这听起来好像自变量和因变量需要正态分布,但据我所知,情况并非如此。我的因变量以及我的一个自变量不是正态分布的。他们应该是吗?

问题 2 我的残差 QQ 正态图如下所示:

残差的正态性检查

这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的零假设:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

残差与拟合值如下所示:

残差与拟合

如果我的残差不是正态分布的,我该怎么办?这是否意味着线性模型完全没用?

4个回答

首先,我会给自己一份经典且平易近人的文章并阅读它:Anscombe FJ。(1973)统计分析中的图表 美国统计学家27:17-21。

关于你的问题:

答案 1:因变量和自变量都不需要正态分布。事实上,它们可以有各种循环分布。正态假设适用于误差的分布()。YiY^i

答案 2:您实际上是在询问普通最小二乘 (OLS) 回归的两个独立假设:

  1. 一是线性假设这意味着的趋势由一条直线表示(对吗?直接回到代数:,其中截距,是直线的斜率。 ) 违反这个假设仅仅意味着关系不能用直线很好地描述(例如,Y¯Xy=a+bxaybY¯X,或二次函数,甚至是在某个点改变斜率的直线)。我自己首选的解决非线性问题的两步方法是(1)执行某种非参数平滑回归,以建议之间的特定非线性函数关系(例如,使用LOWESSGAM等), (2) 使用包含中的非线性的多元回归(例如,)或的参数中的非线性的非线性最小二乘回归模型来指定函数关系(例如,,其中YXXYX+X2XYX+max(Xθ,0)θ的回归线改变斜率的点)。Y¯X

  2. 另一个是正态分布残差的假设。有时,在 OLS 上下文中可以有效地摆脱非正态残差;例如,参见 Lumley T, Emerson S. (2002) The Importance of the Normality Assumption in Large Public Health Data Sets公共卫生年度审查23:151-69。有时,不能(再次,请参阅 Anscombe 文章)。

但是,我建议不要将 OLS 中的假设考虑为数据的所需属性,而应将其作为描述自然的有趣出发点。毕竟,我们在世界上关心的大部分事情都比截距和斜率更有趣。创造性地违反 OLS 假设(使用适当的方法)使我们能够提出和回答更有趣的问题。y

你的第一个问题是

  • 尽管您保证,残差图显示条件预期响应在拟合值中不是线性的;均值模型是错误的。

  • 你没有恒定的方差。方差的模型是错误的。

您甚至无法评估那里的这些问题的正常性。

我发现的关于非正态错误影响的最易理解的探索是Schmidt 和 Finan的这篇论文。

以下是摘要中的结果摘要:

尽管结果转换偏倚点估计,但在线性回归分析中违反正态性假设却没有。正态性假设对于无偏估计标准误差、置信区间和 P 值是必要的。然而,在大样本量中(例如,每个变量的观察次数>10),违反此正态性假设通常不会显着影响结果。与此相反,即使在大样本量设置中,对参数模型、没有极端观察、同方差性和误差独立性的假设仍然具有影响力。

我不会说线性模型完全没用。但是,这意味着您的模型不能正确/完全解释您的数据。有一部分你必须决定模型是否“足够好”。

对于您的第一个问题,我不认为线性回归模型假设您的因变量和自变量必须是正常的。但是,有一个关于残差正态性的假设。

对于您的第二个问题,您可以考虑两件不同的事情:

  1. 检查不同类型的模型。另一个模型可能更好地解释您的数据(例如,非线性回归等)。您仍然需要检查是否违反了此“新模型”的假设。
  2. 您的数据可能没有足够的协变量(因变量)来解释响应(结果)。在这种情况下,您不能做任何其他事情。有时,我们可能会接受检查残差是否遵循不同的分布(例如 t 分布),但对您而言似乎并非如此。

除了你的问题,我看到你的 QQPlot 没有“标准化”。当残差标准化时,通常更容易查看图,请参阅stdres

stdres(lmobject)

我希望它可以帮助你,也许其他人会比我解释得更好。