实际与拟合图告诉我们什么?

机器算法验证 r 回归
2022-03-21 18:34:45

我只是想知道我们可以从 x 轴作为实际数据和 y 轴作为预测数据的图表中推断出什么?

注册

3个回答

实际与预测的散点图是最丰富的数据可视化形式之一。你可以从中看出几乎所有的东西。理想情况下,您的所有点都应该接近回归的对角线。因此,如果 Actual 为 5,则您的预测应该合理地接近 5。如果实际值为 30,则您的预测值也应该合理地接近 30。因此,只需在图表中绘制这样一条对角线并检查点所在的位置。如果您的模型具有高 R 平方,则所有点都将靠近这条对角线。R 平方越低,模型的拟合优度越弱,您的点越模糊或分散(远离这条对角线)。

您会看到您的模型似乎具有三个性能小节。第一个是 Actuals 的值介于 0 和 10 之间的位置。在此区域内,您的模型似乎还不错。第二个是实际值在 10 到 20 之间时,在这个区域内,您的模型基本上是随机的。您的模型的预测值和实际值之间几乎没有关系。第三个区域用于实际值 >20。在此区域内,您的模型稳定地大大低估了实际值。

从这个散点图中,您可以了解与您的模型相关的其他问题。残差是异方差的。这意味着误差的方差在因变量的各个级别上不是恒定的。因此,您的回归系数的标准误差是不可靠的,并且可能被低估了。反过来,这意味着您的自变量的统计显着性可能被夸大了。换句话说,它们可能没有统计学意义。由于异方差问题,您实际上无法分辨。

尽管您无法从该散点图中确定,但您的残差似乎很可能是自相关的。如果您的因变量是随时间增长的时间序列,那么它们肯定是。您可以看到,在 10 到 20 之间,绝大多数残差都是正数。并且,>20 他们都是负面的。

如果您的自变量确实是随时间增长的时间序列,则它存在单位根问题,这意味着它一直呈上升趋势并且是非平稳的。您必须对其进行改造以构建强大的模型。

对于完美的预测,您将拥有 Predicted=Actual 或,因此当您通过该图绘制该线时,您会看到预测与实际值的偏差(预测误差)。x=y

在图中,预测大多高估了实际结果(y>x)

在线性回归中,您希望预测值接近实际值。因此,为了获得良好的拟合效果,该图应该类似于 45 度的直线。但是,这里的预测值大于 10-20 范围内的实际值。这意味着你高估了。因此,该模型似乎没有提供足够的拟合,应该进行修改。