修正加权线性回归的标准误

机器算法验证 r 回归
2022-03-21 12:34:01

计算加权线性回归中系数的标准误差的正确方法是什么?

我使用的回归方程是,我有权重直线拟合的数值配方公式,以及 J. R Taylor(以及维基百科)在“误差分析简介”中给出的公式指出,系数中的标准误差计算为(或者以矩阵形式,标准误差为,)。这个公式可以从误差的传播中推导出来。yi=a+bxiwi=1/σib

σb=wiwiwixi2(wixi)2
σ2=(XWX)1

使用 R 的函数(和 python 的 StatsModels),我在系数中得到一个标准误差,它看起来* 计算为 其中(或者, )。所以它们是相同的,除了 R 和 StatsModel 中的乘数。lm()b

σb=σewiwiwixi2(wixi)2
σe2=wi(yiabxi)2/(N2)σ2=σe2(XWX)1σe

这些实际上不同的措施是否有可能只是被称为同一个东西?对于标准误差的估计,一个优先于另一个?

*我说“出现”是因为我在任何地方都找不到实际的公式。

编辑是因为我省略了分母中的权重项。

1个回答

正如您所注意到的,这两个表达式在计算中使用残差方面存在分歧:Y从预测值,在标准误差的计算中包括或省略。它们确实是不同的估计器,但从长远来看,它们会收敛到相同的东西。它们也可以结合起来创建一个“三明治”估计器。

重新审视一些基本的建模假设:加权线性回归模型是从以下形式的加权估计方程估计的:

U(β)=XTW(YXTβ)

什么时候W只是权重的对角矩阵。这个估计方程也是 MLE 的正规方程(部分对数似然)。那么,预期的信息是:

A=U(β)β=XTWX

然后A1协方差矩阵的一致估计β当 1. 均值模型被适当指定并且 2. 权重是残差的逆方差时。您已经说过 A 矩阵是您的第一个显示器。将此与观察到的信息进行对比:

B=E[U(β)U(β)T]=XTWE((YXβ)T(YXβ))WX

权重矩阵之一可以与平方误差相乘,并将表达式中的因子作为常数,因为它与X, 你会注意到这是σe2=i=1nwi(yiabxi)/(n2).B也是信息矩阵一致估计量,但不同意A在有限样本中。

至于用哪一个,为什么不两个都用呢?三明治估计器由下式获得(ATBA)1并且既不依赖于平均模型是否正确也不依赖于正确指定的权重。