如何解释残差与拟合图

机器算法验证 r 回归 多重回归 残差 QQ图
2022-03-20 02:40:09

我正在调查天气对餐厅需求的影响。目前,我正在测试我的多元线性回归模型的模型假设。

我的模型规格(简化)如下:lm(Visitor ~ Temperature + Temperature_Squared + Pressure + Clouds + Sun + Rain + Day_Fri + Day_Sat + Day_Sun + Day_Mon + Day_Tue + Day_Wed + Hour_00 + Hour_01 + Hour_02 + Hour_13 + Hour_14 + Hour_15 + Hour_16 + Hour_17 + Hour_18 + Hour_19 + Hour_20 + Hour_21 + Hour_22 + Hour_23 + Holiday, data=dat)

运行模型后,得到如下两张图:

在此处输入图像描述

在此处输入图像描述

  1. 残差与拟合图似乎相对平坦且同方差。然而,它在左下角有一个奇怪的截止点,这让我质疑同方差性。这个情节意味着什么,更重要的是,它对我的​​解释意味着什么?多元线性回归是正确的模型吗?

  2. QQ图右上角的“凹凸”怎么解释?

注意:数据完整,没有不合理的异常值。初步结果表明只有 1 个(6 个)IV 是显着的,而所有控制变量都是显着的。此外,没有检测到多重共线性问题。

3个回答

残差图中的截止点和 QQ 图中的凸点都是模型错误指定的后果。

您正在对访问者数量的条件平均值进行建模;让我们称之为Yit. 当您使用 OLS 估计条件均值时,它适合E(YitXit)=α+βXit. 请注意,本规范假设如果β>0, 你可以找到一个足够低的Xit这将访客计数的条件平均值推入负区域。然而,在我们的日常经验中,情况并非如此。

访客人数是一个计数变量,因此计数回归会更合适。例如,泊松回归拟合E(YitXit)=eα+βXit. 根据本规范,您可以采取Xit任意远离负无穷大,但访客人数的条件均值仍然是正数。

所有这些都意味着您的残差不能按其性质呈正态分布。您似乎没有足够的统计能力来拒绝它们是正常的空值。但是通过知道您的数据是什么,可以保证该 null 是错误的。

残差图中的截止值是由此产生的结果。您观察到截止值,因为对于低预测(拟合)访问者计数,预测误差(残差)只能变得如此之低。

QQ 情节末尾的凹凸也由此而来。OLS 低估了右尾,因为它假设Xit结果是线性的。泊松会假设它是乘法的。反过来,错误指定模型中残差的右尾比正态分布的右尾更肥。

我认为@BruceET 提出了一个很好的观点,即“摆动”对于任何估计器都是自然的,问题是摆动是否超出了有效的置信范围。但在这种情况下,它也表示模型规格错误。

以下是 R 中的十几个正态概率图,每个图都针对来自已知标准正态总体的 100 个样本。每个情节大致是线性的,但大多数都有一个或两个“摆动”,尤其是在极端情况下。

set.seed(116)
par(mfrow=c(3,4))
 for(i in 1:12) {
  z = rnorm(100); qqnorm(z, pch=20) }
par(mfrow=c(1,1))

在此处输入图像描述

重复代码(不带set.seed语句)以获得更多示例。平均而言,教科书中的正态概率图示例似乎比通常在实践中看到的图表现得更好——即使正态性假设非常接近真实。

附录: @Henry 在评论中建议的六个带有参考线的附加图。

set.seed(117)
par(mfrow=c(2,3))
 for(i in 1:6) {
  z = rnorm(100)
  qqnorm(z); qqline(z, col=2) }
par(mfrow=c(1,1))

在此处输入图像描述

让我们假设“访问者”是访问者的总数,因此是整数。让我们假设,模型预测访客为零,访客为零,则残差为零。如果访问者多于零,则残差必须为正。如果模型预测访客数量为负数,则残差必须至少具有绝对值作为预测。

一般来说:由于访问者被绑定到一个正值或零值,残差有一个下限。

QQ 图中的凸起很小,在回归假设方面可能不值得担心。