残差图:为什么我们想知道错误?

数据挖掘 绘图 海运
2022-01-30 14:00:31

残差图表示实际值之间的误差。

Y 轴:残差 X 轴:预测变量或拟合值。

为什么我们想知道错误,我们在获得残差时有什么好处?我从视频上传了一张图片。我不明白插图中采样的是什么。

自变量和因变量在哪里?你如何识别错误?

它们进行一次计算并应用于图形的右侧,依此类推。

我正在上这门课,不知道老师在说什么。

有人可以一直打破这个吗?(这是初学者课程!)

以下是视频的文字记录:

检查预测值和实际值,我们看到了差异。我们通过减去预测值和实际目标值来获得该值。然后,我们将该值绘制在垂直轴上,以因变量为水平轴。同样,对于第二个样本,我们重复该过程。从预测值中减去目标值。然后相应地绘制值。查看该图可以让我们深入了解我们的数据。我们希望看到结果的均值为零,以相似的方差均匀分布在 x 轴周围。没有曲率。这种类型的残差图表明线性图是合适的

在此处输入图像描述

2个回答

让我举个例子:假设我们想通过查看浴室的数量来预测房价。x 轴代表您的特征/自变量 (#bathrooms),您的 y 轴代表响应/因变量。这些点代表您收集的训练样本,并且知道其自变量和因变量。

现在在线性回归中,我们的目标是根据我们还没有看到的#bathrooms 的新示例来预测房价。为此,我们必须通过数据点创建一条线,以最好地代表训练数据。那么,一条线是好线还是坏线呢?答案是成本/损失函数。在线性回归中,我们经常使用误差/残差(MSE) 的平方平均值:

1n(yiyi^)2

其中是真实房价,是预测值。我们的目标是尽量减少这种损失。yiyi^

绘制残差可以给我们很多见解:例如,我们在哪些训练样本上犯的错误最高。我们还可以看到残差是如何分布的。对于更复杂的应用程序,我们需要检查这个分布是否存在所谓的马尔可夫定理,它会过于详细。

为什么要使用残差图?

残差是观察到的 y 值(来自散点图)和预测的 y 值(来自回归方程线)之间的差异。

残差图是在纵轴上显示残差,在横轴上显示自变量的图形。如果残差图中的点随机分布在水平轴周围,则线性回归模型适用于数据;否则,非线性模型更合适。

合身

在此处输入图像描述


不合适

在此处输入图像描述


非随机残差模式表明拟合不佳,这表明可能需要非线性模型。

来源

  1. 罗伯茨,D. (2019)。残差 - MathBitsNotebook(A1 - CCSS 数学)。[在线] Mathbitsnotebook.com。可在:https ://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2Residuals.html 获得。
  2. 课程。(2018 年)。使用可视化进行模型评估 - 模型开发 | 课程。[在线] 可在:https ://www.coursera.org/learn/data-analysis-with-python/lecture/istf4/model-evaluation-using-visualization [2020 年 1 月 9 日访问]。

‌ ‌ ‌