如何描述或可视化多元线性回归模型

机器算法验证 回归 多重回归 数据可视化 介绍
2022-02-02 12:15:42

我正在尝试使用几个输入参数(例如 3)将多元线性回归模型拟合到我的数据中。

(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d

我如何解释和可视化这个模型?我可以想到以下选项:

  1. 提及回归方程,如中所述(i)(系数,常数)以及标准偏差,然后是残差图,以显示该模型的准确性。

  2. 自变量和因变量的成对图,如下所示:

    在此处输入图像描述

  3. 一旦系数已知,数据点是否可以用于获得方程(i)浓缩为他们的真实价值。也就是说,训练数据有新的值,形式为x代替x1,x2,x3,其中每个自变量乘以其各自的系数。然后这个简化版本可以直观地显示为一个简单的回归,如下所示:

    在此处输入图像描述

尽管阅读了有关此主题的适当材料,但我对此感到困惑。有人可以向我解释如何“解释”多元线性回归模型以及如何直观地展示它。

3个回答

我最喜欢的显示基本多元线性回归结果的方法是首先将模型拟合到标准化(连续)变量。也就是说,z变换Xs 通过减去均值并除以标准差,然后拟合模型并估计参数。当以这种方式转换变量时,估计的系数被“标准化”以具有单位ΔY/Δsd(X). 通过这种方式,系数与零的距离排列它们的相对“重要性”,它们的 CI 给出了精度。我认为它很好地总结了这些关系,并提供了比系数和 p.values 在其自然且通常不同的数值尺度上的更多信息。下面是一个例子:

在此处输入图像描述

编辑:另一种可能性是使用“添加变量图”(即绘制部分回归)。这提供了另一个视角,因为它显示了YXi在考虑其他变量之后。例如,部分回归YX1+X2+X3将给出二元关系Xi针对残差Y在对其他两项进行回归之后。您将继续为每个变量执行此操作。avPlots()库中的函数从car拟合lm对象中给出这些图。下面是一个例子:

在此处输入图像描述

由于它们都与解释肝硬化的贡献者有关,您是否尝试过制作气泡/圆形图表并使用颜色来指示不同的回归量并使用圆半径来指示对肝硬化的相对影响?

我在这里指的是一个看起来像这样的谷歌图表类型:在此处输入图像描述

在一个不相关的说明中,除非我读错了你的情节,否则我认为你那里有一些多余的回归量。葡萄酒已经是一种酒,所以如果这两个是独立的回归变量,那么如果你的目标是解释肝硬化的发病率,那么保留它们是没有意义的。

您在 3 中显示的可视化(实际值与预测值的散点图)是一个很好的可视化。它可以用于任何回归器。在这种情况下,您展示的示例有助于确认线性假设,因为点分散在整个范围内的线上方和下方。

您所做的另一个假设是因素之间缺乏相互作用。如果您想对此进行测试,那么一个好的可视化是 x_i 与 x_j 的散点图,其中点根据预测中的误差大小进行着色。xs 之间的成对相互作用将通过颜色的图案来揭示。