数据挖掘 - 数据的线性回归和缩放 - 吾爱随笔录

数据的线性回归和缩放

数据挖掘特征选择线性回归特征缩放

2021-10-01 07:00:16

下图显示了使用线性回归获得的系数（mpg作为目标变量，所有其他变量作为预测变量）。

对于 mtcars 数据集（此处和此处），无论是否缩放数据：

我如何解释这些结果？只有当数据被缩放时，变量hp和才有意义。disp是am和qsec同等重要还是am比更重要qsec？应该说哪个变量是的重要决定因素mpg？

感谢您的洞察力。

2个回答

在这种情况下，如果没有标准错误，您就无法真正谈论重要性。它们随变量和系数缩放。此外，每个系数都取决于模型中的其他变量，共线性实际上似乎夸大了 hp 和 disp 的重要性。

重新调整变量不应改变结果的重要性。事实上，当我重新运行回归时（变量保持不变，并通过减去均值并除以标准误差进行归一化），每个系数估计值（常数除外）都具有与缩放前完全相同的 t-stat，并且总体显着性的 F 检验保持完全相同。

也就是说，即使所有变量都已缩放为均值为零且方差为 1，每个回归系数都没有一个标准误差大小，因此只需查看每个系数的大小标准化回归在显着性方面仍然具有误导性。

正如 David Masip 所解释的，系数的表观大小与数据点的大小成反比关系。但即使 disp 和 hp 的系数很大，它们仍然与零没有显着差异。

事实上，hp 和 disp 彼此高度相关，r=0.79，因此这些系数的标准误差相对于系数幅度特别高，因为它们是如此共线。在这个回归中，他们做了一个奇怪的平衡，这就是为什么一个有正系数而一个有负系数；这似乎是一个过度拟合的情况，似乎没有意义。

查看哪些变量解释 mpg 变化最大的一个好方法是（调整后的）R 平方。它实际上是由 x 变量的变化解释的 y 变化的百分比。（调整后的 R 平方包括对方程中每个额外的 x 变量的轻微惩罚，以抵消过度拟合。）

一个很好的方法来查看什么是重要的 - 鉴于其他变量 - 当您从回归中忽略该变量时，查看调整后的 R 平方的变化。该变化是在其他变量保持不变后，该因素解释的因变量的方差百分比。（形式上，您可以使用 F 检验测试遗漏变量是否重要；这就是变量选择的逐步回归的工作方式。）

为了说明这一点，我分别对每个变量进行单线性回归，预测 mpg。变量 wt 单独解释了 mpg 变化的 75.3%，没有一个变量可以解释更多。然而，许多其他变量与 wt 相关，并解释了一些相同的变化。（我使用了稳健的标准误，这可能会导致标准误和显着性计算略有不同，但不会影响系数或 R 平方。）

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

当所有变量都在一起时，R 平方为 0.869，调整后的 R 平方为 0.807。因此，再加入 9 个变量来加入 wt 只能解释另外 11% 的变化（或者仅多 5%，如果我们纠正过拟合）。（许多变量解释了与 wt 相同的 mpg 变化。）在该完整模型中，p 值低于 20% 的唯一系数是 wt，p = 0.089。

hp 和 disp 的系数在数据未缩放时较低，而在数据缩放时较高，这意味着这些变量有助于解释因变量，但它们的幅度很大，因此未缩放情况下的系数必须较低。

就“重要性”而言，我会说缩放情况下系数的绝对值是衡量重要性的一个很好的衡量标准，比未缩放的情况更重要，因为变量的大小也是相关的，它应该不是。

当然，更重要的变量是 wt。

其它你可能感兴趣的问题

上一篇边界框回归器在 Fast R-CNN 中如何工作？下一篇协同过滤的基准数据集