如何解释 R 中 lm 对象的摘要方法的输出?

机器算法验证 r 回归 数据挖掘
2022-01-16 12:39:55

我正在使用样本藻类数据来更多地了解数据挖掘。我使用了以下命令:

data(algae)
algae <- algae[-manyNAs(algae),]
clean.algae <-knnImputation(algae, k = 10)
lm.a1 <- lm(a1 ~ ., data = clean.algae[, 1:12])
summary(lm.a1)

随后我收到了以下结果。但是,我找不到任何好的文档来解释其中的大部分含义,尤其是 Std。误差、t 值和 Pr。

有人可以请好心一点吗?最重要的是,我应该查看哪些变量来确定模型是否为我提供了良好的预测数据?

Call:
lm(formula = a1 ~ ., data = clean.algae[, 1:12])

Residuals:
  Min      1Q  Median      3Q     Max 
  -37.679 -11.893  -2.567   7.410  62.190 

  Coefficients:
                Estimate Std. Error t value Pr(>|t|)   
  (Intercept)  42.942055  24.010879   1.788  0.07537 . 
  seasonspring  3.726978   4.137741   0.901  0.36892   
  seasonsummer  0.747597   4.020711   0.186  0.85270   
  seasonwinter  3.692955   3.865391   0.955  0.34065   
  sizemedium    3.263728   3.802051   0.858  0.39179   
  sizesmall     9.682140   4.179971   2.316  0.02166 * 
  speedlow      3.922084   4.706315   0.833  0.40573   
  speedmedium   0.246764   3.241874   0.076  0.93941   
  mxPH         -3.589118   2.703528  -1.328  0.18598   
  mnO2          1.052636   0.705018   1.493  0.13715   
  Cl           -0.040172   0.033661  -1.193  0.23426   
  NO3          -1.511235   0.551339  -2.741  0.00674 **
  NH4           0.001634   0.001003   1.628  0.10516   
  oPO4         -0.005435   0.039884  -0.136  0.89177   
  PO4          -0.052241   0.030755  -1.699  0.09109 . 
  Chla         -0.088022   0.079998  -1.100  0.27265   
  ---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

  Residual standard error: 17.65 on 182 degrees of freedom
  Multiple R-squared:  0.3731,    Adjusted R-squared:  0.3215 
  F-statistic: 7.223 on 15 and 182 DF,  p-value: 2.444e-12
2个回答

听起来你需要一个体面的基本统计文本,至少涵盖基本的位置测试、简单回归和多元回归。

标准。误差、t 值和 Pr。

  1. Std. Error是标准回归假设下系数估计值的抽样分布的标准差。这种标准偏差称为相应量的标准误差 (在这种情况下为系数估计)。

    在简单回归的情况下,通常表示sβ^,就像这里一样。也看到这个

    对于多元回归,它有点复杂,但如果你不知道这些东西是什么,最好先在简单回归的背景下理解它们。

  2. t value是用于检验相应回归系数是否不等于 0 的 t 统计量值。

    计算它的公式在上面的第一个链接中给出。

  3. Pr.是假设检验的p 值,t 值是检验统计量。如果原假设为真,它会告诉您检验统计量至少与您获得的统计量一样不寻常的概率在这种情况下,原假设是真实系数为零;如果这个概率很低,这表明如果系数真的为零,那么很少会得到像这样不寻常的结果。

最重要的是,我应该查看哪些变量来确定模型是否为我提供了良好的预测数据?

“良好的预测数据”是什么意思?你能说清楚你在问什么吗?

Residual standard error通常称为s, 表示残差的标准差。它衡量拟合与点的接近程度。

Multiple R-squared也称为决定系数,是模型解释的数据中方差的比例。您添加的变量越多 - 即使它们没有帮助 - 这将越大。一个减少Adjusted以考虑模型中的变量数量。

F最后一行的统计数据告诉您整个回归是否“优于随机” - 任何一组随机预测变量都会与响应有某种关系,因此它可以查看您的模型是否比您预期的更好您的预测变量与响应无关(超出了该随机性可以解释的范围)。这用于测试模型是否优于作为预测变量的“噪声”。最后一行中的 p 值是该测试的 p 值,本质上是将您安装的完整模型与仅截距模型进行比较。


数据从何而来?这是在某个包裹里吗?

标准误差是对效应强度的方差或每个因果变量与预测变量之间关系强度的估计。如果它很高,那么效果大小必须更强,我们才能确定它是真实的效果,而不仅仅是随机的人工制品。

t 统计量是对您看到的值相对于标准误差的极端程度的估计(假设正态分布,以零假设为中心)。

p 值是对将t 值视为极端或更极端的概率的估计,如果您假设原假设为真 (原假设通常是“无效”,除非有其他情况)已指定)。因此,如果 p 值非常低,那么您看到与零效应相反的数据的可能性就更高。在其他情况下,您可以根据其他统计数据和变量获得 p 值。

不幸的是,如果对 p 值的解释令人困惑,那是因为整个概念令人困惑。重要的是要注意,从技术上讲,低 p 值并不表示效果的可能性很高,尽管它可能表明这一点。阅读一些投票率高的 p 值问题,以了解这里发生了什么。