解释正交性

机器算法验证 回归 多重回归 线性的
2022-04-17 14:32:47

在多元偏线性回归设置中,我正在阅读的书中有这句话:

«由于残差与解释变量正交,“清理”变量M2YM2X1(残差)与X2»,

在哪里X=(X1X2), 和X2是矩阵的最后 g 列X, 和M2是到由 的列生成的空间的正交空间的投影矩阵X2.

我不明白这句话,因为M2YM2X1是暗淡的向量n×1, 和X2 昏暗的n×g. 我理解句子的第一部分,这意味着X2TM2X1=0X2TM2Y=0. 句子的第二部分我不明白。

1个回答

根据它们的构造方式,残差与回归量正交,不仅在统计意义上,而且作为数值向量,请参见此答案我们正在编写矩阵以使它们符合,即X2M2Y=0自从M2=IX2(X2X2)1X2

人们在计量经济学著作中发现似乎将“正交性”与“不相关性”等同起来的短语的原因是,这些短语通常是针对残差或误差项进行讨论的。第一个构造为零均值(只要回归包含一个常数),第二个被假定为零均值。但是,这些实体与任何变量的协方差是

Cov(X,u)=E(Xu)E(X)E(u)=E(Xu)

自从E(u)是(或假定)等于零。在这种情况下,正交性就等同于不相关性。否则,两个变量的均值均非零,它们是不等价的。

但这意味着,如果我们检查以均值为中心的变量(因此构造为零均值),那么正交性就等同于非相关性。由于各种原因,这种使变量居中的做法被广泛使用(在计量经济学之外),因此正交性再次等同于非相关性。

相反,对于非零均值,我们有相反的关系:正交性意味着相关性

假设变量是正交的,E(XY)=0. 然后

Cov(X,Y)=E(XY)E(X)E(Y)=E(X)E(Y)0

所以它们是相关的。

以上也告诉我们,我们可以有E(XY)0,E(X)0,E(Y)0, 但Cov(X,Y)=0, 如果E(XY)=E(X)E(Y). 换句话说,非零均值自变量是不相关的,但不是正交的。

总之,一个人应该仔细思考这些概念,并理解在什么条件下一个暗示另一个或否定另一个。