关于线性关系,r、r 平方和残差标准差告诉我们什么?

机器算法验证 r 回归 回归系数 线性的 皮尔逊-r
2022-03-08 07:50:12

一点背景
我正在研究回归分析的解释,但我对 r、r 平方和残差标准差的含义感到非常困惑。我知道定义:

表征

r 测量散点图上两个变量之间线性关系的强度和方向

R平方是数据与拟合回归线的接近程度的统计量度。

残差标准差是一个统计术语,用于描述围绕线性函数形成的点的标准差,是对被测因变量准确度的估计。不知道单位是什么,这里有关于单位的任何信息都会有帮助

(来源:这里

问题
虽然我“理解”了这些特征,但我确实理解这些术语如何共同得出关于数据集的结论。我将在此处插入一个小示例,也许这可以作为回答我的问题的指南(请随意使用您自己的示例!)

示例
这不是一个很好的问题,但是我在我的书中搜索了一个简单的示例(我正在分析的当前数据集过于复杂和庞大,无法在此处显示)

在一大片玉米地中随机选择了 20 个地块,每个 10 x 4 米。对于每个小区,观察植物密度(小区中的植物数量)和平均玉米芯重量(每玉米芯的谷物克数)。结果如下表所示:(
来源:生命科学统计

╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║  ║
╠═══════════════╬════════════╬══╣
║           137 ║        212 ║  ║
║           107 ║        241 ║  ║
║           132 ║        215 ║  ║
║           135 ║        225 ║  ║
║           115 ║        250 ║  ║
║           103 ║        241 ║  ║
║           102 ║        237 ║  ║
║            65 ║        282 ║  ║
║           149 ║        206 ║  ║
║            85 ║        246 ║  ║
║           173 ║        194 ║  ║
║           124 ║        241 ║  ║
║           157 ║        196 ║  ║
║           184 ║        193 ║  ║
║           112 ║        224 ║  ║
║            80 ║        257 ║  ║
║           165 ║        200 ║  ║
║           160 ║        190 ║  ║
║           157 ║        208 ║  ║
║           119 ║        224 ║  ║
╚═══════════════╩════════════╩══╝

首先,我将制作一个散点图来可视化数据: 因此我可以计算 r、R 2和残差标准差。 首先是相关性检验:
在此处输入图像描述

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

其次是回归线的总结:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

所以基于这个测试:r = -0.9417954, R-squared: 0.887和残差标准误差:8.619 这些值告诉我们关于数据集的什么?(见问题

2个回答

在获得关于我的第一个答案的问题的反馈后,这是第二次尝试回答。

首先,r,在您的简单线性回归情况下,相当于植物密度和玉米棒重量之间的 Pearson 相关性。更普遍,|r|构成了理论上可以使用线性函数构造数据预测器的好坏的上限。即最好的线性预测器将预测具有相关性的值|r|与观测值。

第二,R2在简单的线性回归情况下只是r2. 对于多元回归R2有时计算不同,例如,通过将拟合模型中的残差(响应变量的预测值和观察值之间的差异)与预测响应变量设置为常数时的残差进行比较。

通常,r被解释为衡量两个变量之间的关系的线性程度,并且R2被解释为模型解释的因变量的方差分数。然而,在许多情况下,这些解释并不成立。例如,如果给定植物密度的玉米芯重量的平均值在植物密度中不是线性的,则r可能无法正确表达关系的“线性”。对于一些一般性问题r参见Anscombe 的四重奏另请参阅whuber关于关于R2. 回答你的问题rR2,这些值并没有告诉我们太多关于数据集的信息,除非我们可以做出一些超出线性回归通常所做的相当强的假设(例如,我们必须假设变量之间除了我们正在建模的线性模型)。

残差标准误差是正态分布的标准偏差,以预测回归线为中心,表示实际观察值的分布。换句话说,如果我们只测量新地块的植物密度,我们可以使用拟合模型的系数来预测玉米芯重量,这是该分布的平均值。RSE 是该分布的标准偏差,因此可以衡量我们预期实际观察到的玉米棒重量与模型预测值的偏差程度。在这种情况下,必须将~8 的 RSE 与玉米棒重量的样本标准偏差进行比较,但与样本 SD 相比,RSE 越小,模型的预测性或充分性就越强。

这些统计数据可以告诉您关系是否存在线性分量,但不能告诉您关系是否严格线性。具有较小二次分量的关系可以具有 0.99 的 r^2。作为预测函数的残差图可以揭示。在伽利略的实验中https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html相关性非常高,但关系显然是非线性的。