何时使用残差图?

机器算法验证 回归 残差
2022-04-07 04:40:36

我在一个因变量 (DV) 和一个解释变量 (IV) 之间进行了简单的回归分析。

如果 IV 回归分析的 p 值不显着,我是否仍应使用残差图来验证所使用的回归模型是否正确(并且非显着 IV 的陈述是否正确)?

还是应该只对包含重要 IV 的模型使用残差图?

2个回答

它们在评估解释变量和因变量之间的关系是否是线性的(或根据方程正确建模)时仍然有用。举一个极端的例子,我生成了一些具有二次关系的数据,并拟合了形式的线性回归。(因为抛物线大约以零为中心,在方程中无关紧要)。Y=α+β(X)+eβ

在此处输入图像描述

如果您绘制与残差,尽管二次关系仍然非常清楚。(想象一下,只是删除第一个情节。)X

在此处输入图像描述

我敢肯定,您可以想象回归系数不显着的其他场景,但检查残差将显示模型是如何不足的。

为简单起见,假设您已经拟合了一些线给定一个因变量或响应变量和一个预测变量或自变量这个特定的假设可以放宽,我们会及时处理。y^=b0+b1xyx

每边都有一个变量,残差图(意思是残差与拟合或预测的图)原则上显示与叠加回归线的散点图相同的信息。在后者上,残差只是数据点和直线之间的垂直差异,拟合的是直线上的对应值,即对于相同的值。yy^=:ey^x

在实践中,残差图可以使残差中的结构更加明显:

  • 回归线旋转到水平。当指示没有结构的参考是水平直线时,在任何东西中看到结构是最容易的,这里的线e=0

  • 有更好的空间利用。

在这个简单的例子中,残差中的一些结构在散点图中是可辨别的

在此处输入图像描述

但在残差图中更容易看到:

在此处输入图像描述

这里的食谱很简单。数据被制作为二次加高斯噪声,但二次仅被简单的线性拟合粗略捕获。

但在残差图上更容易看到结构仍然是普遍事实。在不要过度解释残差图时需要谨慎,尤其是在样本量非常小的情况下。像往常一样,你发现的东西也应该具有科学或实际意义。

如果拟合比更复杂怎么办?有两种情况:b0+b1x

  • 仍然可以在散点图上显示所有内容,例如右侧是多项式或的三角函数中的某些东西。在这里,如果有的话,残差图在映射所有内容时甚至更有价值,因此零残差是参考。x

  • 该模型使用两个或多个预测变量。在这里,残差图也可以作为一种健康检查,显示您做得如何以及您错过了什么,这是非常宝贵的。

健康检查类比更普遍:残差图可以帮助您发现问题所在。如果没有明显错误,没有消息就是好消息,但没有绝对的保证:可能错过了一些重要的事情。

关于预测变量是否有显着影响,我不知道绘制或不绘制残差图的规则。等显着性水平和品质因数非常好,但直线模型仍然遗漏了真实结构的关键部分。相反,残差图通常可以说明模型无法工作的原因:要么模式真的是所有噪声,就可以看出,要么你的模型错过了一些非常重要的东西,比如一些非线性。R2

脚注:对于许多统计人员来说,IV 表示工具变量,而不是自变量。