回归系数协方差的解释是什么?

机器算法验证 r 多重回归 最小二乘
2022-01-31 19:53:09

R中的lm函数可以打印出回归系数的估计协方差。这些信息给了我们什么?我们现在可以更好地解释模型或诊断模型中可能存在的问题吗?

2个回答

协方差矩阵最基本的用途是获得回归估计的标准误差。如果研究人员只对个体回归参数本身的标准误感兴趣,他们可以只对对角线的平方根来得到个体标准误。

但是,通常您可能对回归参数的线性组合感兴趣。例如,如果您有一个给定组的指示变量,您可能对组均值感兴趣,这将是

β0+βgrp

然后,要找到该组估计均值的标准误,您将有

XSX ,

其中是对比向量,是协方差矩阵。在我们的例子中,如果我们只有加法协变量“grp”,那么表示截距,表示属于组)。XSX=(1,1)11

此外,协方差矩阵(或更重要的是,相关矩阵,它是从协方差矩阵中唯一标识的,但反之亦然)对于某些模型诊断可能非常有用。如果两个变量高度相关,一种思考方式是模型无法确定哪个变量对效果负责(因为它们密切相关)。这对各种情况都有帮助,例如选择协变量子集以用于预测模型;如果两个变量高度相关,您可能只想在预测模型中使用这两个变量之一。

有两种“类型”的回归系数:

  1. 描述数据的基础数据生成过程的“真实”回归系数(通常表示为这些是固定数字或“参数”。一个例子是光速,(我们假设)在可访问的宇宙中的任何地方总是相同的。βc
  2. 从数据样本计算的估计回归系数(通常表示为样本是随机变量的集合,因此估计的回归系数也是随机变量。一个例子是在实验中获得的bβ^c

现在想想协方差是什么意思。取任意两个随机变量如果绝对值时,绝对值XY|Cov(X,Y)|XY你也可以期望在同一方向请注意,这里的“高”是相对于XY,正如评论中指出的那样。

两个回归系数的(估计的)协方差是估计的协方差,b. 如果估计系数之间的协方差b1b2高,然后在任何样本中b1很高,你也可以期待b2要高。在更贝叶斯的意义上,b1包含有关信息b2.

再次注意,“高”是相对的。这里 ”b1高”的意思是“b1相对于它的标准误差来说是高的”,并且它们的协方差是“高”意味着“相对于它们的标准误差的乘积来说是高的。”消除这些解释性问题的一种方法是通过除以其标准差来标准化每个回归输入(或在某些情况下为两个标准差)。

该网站上的一位用户描述了 Cov(b1,b2)作为“有点软糖”,但我并不完全同意。一方面,您可以使用这种解释来提出贝叶斯回归中的信息先验。

至于这实际上是用来做什么的,Cliff AB 的回答是一个很好的总结。