机器算法验证 - 关于阅读列线图的说明 - 吾爱随笔录

关于阅读列线图的说明

机器算法验证回归多重回归数据可视化预测模型回归策略

2022-03-08 14:57:10

以下是从 mtcars 数据集创建的列线图，其中包含公式的 rms 包：

mpg ~ wt + am + qsec

在此处输入图像描述

模型本身看起来不错，R2 为 0.85，P<0.00001

> mod

Linear Regression Model

ols(formula = mpg ~ wt + am + qsec, data = mtcars)

                Model Likelihood     Discrimination    
                   Ratio Test           Indexes        
Obs       32    LR chi2     60.64    R2       0.850    
sigma 2.4588    d.f.            3    R2 adj   0.834    
d.f.      28    Pr(> chi2) 0.0000    g        6.456    

Residuals

    Min      1Q  Median      3Q     Max 
-3.4811 -1.5555 -0.7257  1.4110  4.6610 

          Coef    S.E.   t     Pr(>|t|)
Intercept  9.6178 6.9596  1.38 0.1779  
wt        -3.9165 0.7112 -5.51 <0.0001 
am         2.9358 1.4109  2.08 0.0467  
qsec       1.2259 0.2887  4.25 0.0002

我不清楚这些“点”、“总点”和“线性预测器”是什么。其中哪一个代表 mpg，结果变量？我将不胜感激任何解释。

编辑：考虑到@Glen_b 的优秀建议，以便轻松阅读点等，以下可能是另一种列线图：

在此处输入图像描述

由于结果或响应变量可用，因此可以使用它来代替术语“线性预测器”。关于如何阅读列线图也变得不言自明。

1个回答

好吧，由于您的模型是线性的，预期的 mpg 等于线性预测器，您可以直接从线性预测器标度读取 mpg。

对于每个变量，您可以在相关尺度上找到它的值。例如，假设我们想找到一辆汽车的预测 mpg wt=4, am=1, qsec=18：

在此处输入图像描述

这给出了大约 18.94 的预测 mpg。代入方程得到 18.95，因此非常接近。（在实践中，您可能只会工作到最接近的整数点——因此得到大约 2 个数字的准确度——“19 mpg”——而不是像这里的 3-4 个数字。）

在我看来，这种图表的主要好处之一是您可以立即看到不同预测变量 (IV) 的变化对响应 (DV) 的相对影响。即使您不需要图表进行任何计算，它在简单地显示变量的相对影响方面也具有很大的价值。

评论中的后续问题：

它对非线性或多项式回归的工作方式是否相同？

对于某些预测变量中是非线性的情况，需要进行一些较小的（也许是明显的）修改。假设我们有 $E(Y)$ $\hat{y} = b_0+b x_1+f(x_2)$

在哪里：

(a)是单调的；或者 $f$

(b)不是单调的 $f$

的比例都将与上述完全相同，但以防万一： $x_1$

(a)的比例不是线性的；例如，如果是单调递减但（大致）二次，你可能会有这样的事情： $x_2$ $f$

在此处输入图像描述

的非单调音阶将在转折点“中断”并翻转。例如 $x_2$

在此处输入图像描述

-- 这里函数附近有最小值 $f(x)$ $x=2.23$

此类函数可能有多个转折点，在这些转折点上，刻度会多次折断和翻转——但轴线只有两条边。

对于点型列线图，这没有任何困难，因为可以将额外的比例部分向上或向下移动（或更一般地，与轴的方向正交）一点，直到不发生重叠。

（对于对齐型列线图来说，一个以上的转折点可能是一个问题；Harrell 的书中显示的一种解决方案是将所有刻度从参考线稍微偏移，在该参考线上实际取值的位置。）

在具有非线性链接函数的 GLM 的情况下，尺度如上所示，但线性预测器的尺度将标记的非线性尺度，类似于上面的 (a)。 $Y$

所有这些情况的示例都可以在 Harrell 的回归建模策略中找到。

只是一些旁注

我更希望在相关部分的顶部和底部看到两个点刻度；否则很难准确“排列”，因为您必须猜测“垂直”是什么。像这样的东西：

但是，正如我在评论中指出的那样，对于图表的最后一部分（总分和线性预测器），也许比第二个点规模更好的替代方案是简单地有一对背靠背的规模（总点在一个一边，另一边是线性预测器），像这样：

因此，我们无需知道“垂直”是什么。
只有两个连续预测变量和一个二元因子，我们可以很容易地构建一个更传统的对齐列线图：

在这种情况下，您只需在它们的刻度上找到wt和值，然后用一条线将它们连接起来；qsec在它们穿过mpg轴的位置，我们读取值（而am变量确定您读取轴的哪一侧mpg）。在像这样的简单情况下，这类列线图使用起来更快、更简单，但不太容易推广到许多预测变量，它们可能会变得笨拙。您问题中的点式列线图（在回归建模策略和rmsR 中的包中实现）可以无缝添加更多变量。在处理交互时，这可能是一个相当大的优势。

其它你可能感兴趣的问题

上一篇驯服偏斜...为什么有这么多偏斜函数？下一篇两个有序分类变量之间的相关性