直观解释模型系数的标准误差与残差方差的关系

机器算法验证 回归 估计 标准错误
2022-04-13 11:19:24

在简单的线性回归中y=a+βX,普通的最小二乘或最大似然 (ML) 估计给出var(β^)=σ2(XX)1, 在哪里σ2是残差方差。在一个预测变量 x 的情况下,var(β^)=σ2/i=1n(xix¯)2(1)。

在一般 ML 情况下,参数标准误差的渐近估计定义为 Fisher 信息矩阵的逆矩阵: var(θ^)=[I(θ^)]1, 在哪里I(θ^)指的是Fisher信息矩阵。

1)在不详细介绍数学公式的情况下,有人可以对模型系数的标准误差如何以及为什么与残差方差相关联给出一些直观的解释吗?

2)给定公式(1),似乎如果我有更广泛的预测变量x(关系到x¯),或更多的样本n,估计的 SEβ减少。直觉上为什么?

3)如果我们从另一个角度来看我的问题:如果我使用固定关系随机模拟多个样本y=3+2x+ϵ在哪里ϵ服从正态分布N(0,σ),并应用简单的线性回归。我的数据生成过程中唯一的随机性如何(即σ为了ϵ) 最终导致系数的不确定性(或随机性,SE)?我的意思是当我模拟数据时,我的模型系数没有不确定性。

1个回答

模拟数据时,您知道总体系数,因为您选择了它们。但是如果模拟数据并且只给你数据,你不知道人口系数。你只有数据——就像真实数据一样。

当您查看具有线性关系噪声的数据时,有多种与数据一致的总体线——可以合理地产生该数据的线:

具有三个似是而非的线性拟合的线性相关数据图

三个标记的线都是合理的人口线 - 观察到的数据可能很容易来自这些线中的任何一条(以及靠近这些线的无数其他线)。

但是如果我们减小误差项的标准差:

两个具有相同系数但第二个具有第一个条件标准差的十分之一的模拟数据集的图

那么可能产生该数据的线的斜率和截距范围要小得多;虽然与第二组数据一致的所有行都可以产生第一组数据,但有些行很容易产生第一组数据,而对于第二组数据来说相对不可信。从字面上看,对于第二组数据,您对人口线可能在哪里的不确定性较小。

或者这样看:如果我模拟 50 个样本,比如左手(灰色)点(全部具有相同的系数并且具有更大的σ),那么拟合回归线的系数将因样本而异。如果我然后对较小的做同样的事情σ,它们的变化相应较小。

在这里,我们为大小为 100 的 50 个样本中的每一个绘制斜率与截距,对于大样本和小样本σ

来自具有两个不同 sigma 的多个模拟的系数图

事实上,我们看到第二组点(拟合系数)的变化要小得多。如果您对许多这样的样本执行此操作,则结果表明,在任何方向上点到中心的典型距离与σ.


如何更大的传播x' 使标准误差更小?

考虑这两个图,我将较大的噪声样本分成接近 x 均值的点和更远的点(这使得 x 的标准偏差相对较小和较大):

大 sigma 数据的中半部分和“外半部分”图,带有似是而非的线条

现在只考虑斜率。

从这个大的中心半部分看子集中的点-σ数据集,我们可以看到,可能产生该数据的斜率范围比合理产生值的外半部分的斜率范围更广——与人口线的分布相比,人口线的点分布相对更宽x 的,所以如果 x 传播很窄,那么斜率就有更多的“摆动空间”。

具体来说,两条红线与点的中半部分非常一致,但与外半部分不一致(任何一条线都不太可能产生右侧图中的点)。