在多元回归模型中,所有变量都具有高度显着性是否现实?

机器算法验证 r 回归 统计学意义 多重回归 解释
2022-03-03 12:25:01

我想回归发动机排量、燃料类型、2 与 4 轮驱动、马力、手动与自动变速器以及速度数量的燃油经济性。我的数据集(链接)包含 2012-2014 年的车辆。

  • fuelEconomy每加仑英里数
  • engineDisplacement: 发动机尺寸(升)
  • fuelStd: 1 代表汽油 0 代表柴油
  • wheelDriveStd: 1 代表 2 轮驱动,0 代表 4 轮驱动
  • hp: 马力
  • transStd: 1 为自动,0 为手动
  • transSpeed: 速度数

R代码:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. 结果是现实的还是我在这里做错了什么,因为大多数变量在统计上都非常显着?
  2. 其他模型是否更适合用于此目的?
  3. 这样的结果可用于解释吗?
4个回答

@AntoniParelleada 很好地展示了一些可用于评估模型的标准模型诊断技术。我认为您主要关心的是“大多数变量在统计上都非常显着”。

我不认为你需要担心这一点,就其本身而言。从您的输出中,我看到该模型具有F-statistic: 1566 on 6 and 2648 DF. 这意味着您正在参数并拥有个数据。这为您提供了巨大的统计能力在您的变量和响应之间存在任何关系的假设下,这并非完全无关紧要,您应该得到一个显着的结果。我更惊讶的是任何东西(即)都不重要。 662655transSpeed

也许您的问题是出于这样一种信念,即从理论的角度来看,某些变量应该与之无关,fuelEconomy因此您对它的重要性感到惊讶。(但是,如果这是真的,将其包含在模型中将是不寻常的。)但是显着的结果并不一定意味着协变量对响应有影响,所以这不一定是I 型错误因为您的数据几乎可以肯定是观察性的,所以您只检测到边缘关联。也就是说,例如,具有前轮驱动的汽车通常也可能与后轮驱动汽车的不同之处在于除了哪些车轮传递动力以及模型中包括的其他变量之外。因此, 的系数wheelDriveStd将衡量它之间的关联和所有与它相关的未包含变量fuelEconomy因此,即使我们从物理学/工程学中知道哪些车轮传递动力与燃油效率无关,它的重要性也可能是合理的。

我对所涉及的力学和物理学知之甚少,但我首先要看的是回归诊断,特别是残差与拟合值的图,我们希望没有整体模式。

您已经拟合了一个线性模型,以便每个协变量与 具有线性关联fuelEconomy这是否得到基础机械和物理理论的支持?可能存在任何非线性关联吗?如果是这样,那么您可以考虑使用非线性项、转换某些变量的模型,或者您可以考虑使用加法模型。即使关联在您的实际数据集中似乎是线性的,也要非常小心将结果外推到数据限制之外。

具有黄土曲线和相关值(绝对值)的散点图矩阵可能是一个很好的起点:

在此处输入图像描述

我们可以注意到这里fuelEconomy绘制的可能与lineDisplacement和的二次关系hp,这也反映在残差图中的耐克旋风外观中。调查这些术语之间是否存在相互作用会很有趣。

在此处输入图像描述

fuelEconomy如果我们对反对进行线性回归,这种缺乏线性的情况也很明显linearDisplacement(用 可以得到类似的结果hp)。注意红线...

在此处输入图像描述

这种影响可以部分纠正,使模型更复杂,并引入二次模型:

在此处输入图像描述

新模型的调整后 R 平方值 ( ) 高于第一个模型 ( )。0.82050.7798


fuelStd和简单地将预测值的平均值向下移动的二分法性质,wheeldriveStd实际上是虚拟编码变量或因子。这在初始散点图上也很明显,但可以通过箱线图进一步可视化:

在此处输入图像描述


诊断的最后一点是存在高杠杆点,值得研究:

在此处输入图像描述

得出什么结论?没有什么绝对的。也许只是为了强调绘图在理解数据集和强加于其上的任何模型方面的重要性。

第一个问题的答案取决于您的理论框架,您如何陈述有关因变量和自变量之间关系的假设,以及您如何解释结果。就其本身而言,获得大多数变量的统计显着关系可能并不能说明您的结果有多现实。

因此,如果这些结果对您来说很可疑(基于您的先验知识),您可以运行一些诊断测试以进行回归。可能存在违反模型假设和其他问题(例如,异常值)。事实上,运行这些测试来评估你的回归模型总是有帮助的。由于您使用的是R,因此您可以检查car为诊断测试提供了许多功能的包。在这里,您可以找到包的作者之一(和创建者)carJohn Fox 的回归诊断课程幻灯片。您也可以查看他关于该主题的书(1991 年)。Kabacoff (2011) 还讨论了回归诊断以及如何使用R函数(包括来自car包)并解释结果(第 188-200 页)。我认为在这些诊断测试之后,最好评估结果以及它们的可用性。


福克斯,J. (1991)。回归诊断纽伯里公园,伦敦,新德里:Sage Publications。

罗德岛卡巴科夫 (2011)。R in Action:使用 R 进行数据分析和图形庇护岛:曼宁。

还:

Fox, J. 和 Weisberg, S. (2011)。诊断线性和广义线性模型中的问题。R Companion to Applied Regression(第 2 版,第 285-328 页)中。洛杉矶:圣人出版社。