解读多元线性回归的评价结果

数据挖掘 r 回归 线性回归
2021-09-15 12:28:05

我正在学习多元线性回归模型。我已经构建了一个model并使用 R 命令:

summary(model)

我得到了这个结果:

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 253.2 on 44 degrees of freedom Multiple
R-squared:  0.3336, Adjusted R-squared:  0.2579  F-statistic: 4.405 on
5 and 44 DF,  p-value: 0.002444

我如何解释这个结果以便对模型的优劣做出决定?具体来说,44 degrees of freedom本案的手段是什么?

另外,为什么我们要调整多个 r 平方参数?

2个回答

我将一个接一个地回答你的问题。

首先,44 个自由度是什么意思?

它只是意味着您构建的模型是使用 44 个自变量构建的。例如,一个看起来像 y = a x + b 的模型有 1 个自变量(即 a),因此有 1 个自由度。一个看起来像 y= a x1 + b*x2 + c 的模型将有 2 个自变量(即 a 和 b),因此有 2 个自由度。

其次,什么是多重 R 平方?

在这里,为了解释它,多重 R 平方等效于具有 1 个自由度的线性回归模型的(简单)R 平方。多重 R 平方告诉我们模型解释的观察方差的份额。例如,如果您的多重 R 平方为 0.79,则意味着您的模型解释了数据中观察到的 79% 的方差。

第三,什么是调整后的 R 平方,我们为什么需要它?

多重 R 平方有几个问题。

问题 1:每次向模型添加预测变量时,R 平方都会增加,即使仅是由于偶然性。它永远不会减少。因此,具有更多自变量(更多自由度)的模型可能看起来更适合,因为它具有更多自变量。

问题 2:如果一个模型有太多的预测变量和高阶多项式,它就会开始对数据中的随机噪声进行建模。这种情况被称为过度拟合模型和误导性的高 R 平方值以及降低的预测能力。

问题 1 是由问题 2 引起的。这就是调整后的 R 平方派上用场的地方。调整后的 R 平方试图通过考虑自变量的数量来解决这些问题。调整后的 R 平方告诉您仅由实际影响因变量的自变量解释的变异百分比。

在此处输入图像描述

在哪里:

  • n 是您拥有的数据点数,
  • k 是用于解释其分布的自变量的数量,不包括常数

如果您向模型中添加越来越多的无用变量,则调整后的 r 平方会减小。如果添加更多有用的变量,调整后的 r 平方会增加。调整后的 R-squared 将始终小于或等于 R-squared 。处理样本时只需要 R 平方。换句话说,当您拥有来自整个人口的数据时,R 平方不是必需的。


这是一系列有趣的文章,可帮助您了解如何使用 R 平方更好地解释模型的结果。

细节只是help(summary.lm)R中的一个。代码和术语的含义如下:

考虑 R = 相关系数

  1. 残差标准误差只不过是均方误差的正平方根
  2. 回归自由度= 中自变量(因子)的数量y=a1x1+a2x2+a3x3+... 维基百科链接以获得更好的深入解释
  3. R平方=(MultipleR)2=R2= 1(ResidualSS/TotalSS)=(RegressSS/TotalSS)
  4. 调整后的 R 方=1(Totaldf/Residualdf)(ResidualSS/TotalSS)

关于如何理解自由度的精彩帖子。