如何解释线性回归中的系数标准误差?

机器算法验证 r 回归 解释
2022-02-09 08:34:50

我想知道在 R 中使用显示函数时如何解释回归的系数标准误差。

例如在以下输出中:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

更高的标准误差是否意味着更大的重要性?

同样对于残差标准差,较高的值意味着较大的散布,但 R 平方显示非常接近,这不是矛盾吗?

1个回答

参数估计,如样本均值或 OLS 回归系数,是我们用来推断相应总体参数的样本统计量。人口参数是我们真正关心的,但是因为我们无法访问整个人口(通常假设是无限的),所以我们必须改用这种方法。但是,这种方法会带来一些令人不安的事实。例如,如果我们取另一个样本,并计算统计量以再次估计参数,我们几乎肯定会发现它不同。此外,这两种估计都不太可能与我们想知道的真实参数值完全匹配。事实上,如果我们一遍又一遍地这样做,永远继续采样和估计,我们会发现不同估计值的相对频率遵循概率分布。中心极限定理表明这种分布很可能是正态的。我们需要一种方法来量化该分布中的不确定性。这就是标准错误为您所做的。

在您的示例中,您想知道总体中 x1 和 y 之间的线性关系的斜率,但您只能访问您的样本。在您的样本中,该斜率为 0.51,但如果不知道其相应的抽样分布有多少可变性,就很难知道该数字的含义。标准误差(在这种情况下为 0.05)是该抽样分布的标准偏差。为了计算显着性,您将估计值除以 SE 并在表中查找商。因此,较大的 SE 意味着较低的重要性。

残差标准偏差与斜率的采样分布无关。它只是您的样本的标准偏差,取决于您的模型。没有矛盾,也不可能有。至于您如何拥有具有高 R^2 且只有 40 个数据点的更大 SD,我猜您的范围限制与此相反——您的 x 值分布非常广泛。