正交回归参考?

机器算法验证 回归 多重回归 正交
2022-04-03 21:33:56

我不确定这叫什么,但我记得看到我的一个同事在做多元回归,就像

YX1+X2+X3

然后他说他会“正交化”所以他将每个IV与其他IV进行回归,并取残差......如:

Z1=residuals(X1X2+X3)
Z2=residuals(X2X1+X3)
Z3=residuals(X3X1+X2)

之后他重新进行了回归:

YZ1+Z2+Z3

我以前从未见过这个,是否有一个参考或名称,我可以在其中搜索更多关于这个以及为什么/什么时候想做这样的事情?

4个回答

我想你记错了过程的结束。在 R 中,它会是这样的:

# generating random x1 x2 x3 in (0,1) (10 values each)
> x1 <- runif(10)
> x2 <- runif(10)
> x3 <- runif(10)

# generating y
> y <- x1 + 2*x2 + 3*x3 + rnorm(10)

# classical regression
> lm(y ~ x1 + x2 + x3)

Call:
lm(formula = y ~ x1 + x2 + x3)

Coefficients:
(Intercept)           x1           x2           x3  
 0.2270       2.0088       0.2746       3.1529  


# "orthogonalized" regression
> lm(x1 ~ x2 + x3)$residuals -> z1
> lm(x2 ~ x1 + x3)$residuals -> z2
> lm(x3 ~ x1 + x2)$residuals -> z3

> lm(y ~ z1) 

Call:
lm(formula = y ~ z1)

Coefficients:
(Intercept)           z1  
      3.056        2.009  

> lm(y ~ z2)

Call:
lm(formula = y ~ z2)

Coefficients:
(Intercept)           z2  
     3.0560       0.2746  

> lm(y ~ z3)

Call:
lm(formula = y ~ z3)

Coefficients:
(Intercept)           z3  
      3.056        3.153  

看?对于 ,您会得到相同的估计值请注意,截距是不同的;残差居中,因此回归的截距只是的平均值(对于)。一旦你得到,就不难找到经典回归的截距。β^ii=1,2,3ziy ~ z1yz2z3β^i

数学解释将在上一版统计学习的要素的第 54-55 页中找到——比我能写的任何东西都要清晰和准确(可在线获得)。

这是Frisch Waugh Lovell 定理的实际应用

Ruud 的经典计量经济学理论导论尽可能地骑着 FWL 小马。这是一个非常有趣的回归几何。

模型可以重新参数化,从而出现两个新的似然方程,每个方程只有一个未知参数。这将有助于求解似然方程,也有助于回归模型的一般解释和使用。(7.2.2 in [hendry2007econometric])

假设您要重新参数化以下模型:(请注意,可以是某个先前回归量的任何转换)X3

YX1+X2+X3

X1 ,可以同时正交化。在书中,操作是基于一个常数向量。X2X3

Z1=residuals(X11)Z2=residuals(X21+X1)Z3=residuals(X31+X1+X2)

按照@Elvis的例子

library(magrittr)

## generating random x1 x2 x3 in (0,1) (10 values each)
x1 <- runif(10)
x2 <- runif(10)
x3 <- runif(10)

## generating y
y <- x1 + 2 * x2 + 3 * x3 + rnorm(10)

## classical regression
lm(y ~ x1 + x2 + x3) %>% summary()

## orthogonalize regressors on a unit vector
lm(x1 ~ 1)$residuals -> z1
lm(x2 ~ 1 + x1)$residuals -> z2
lm(x3 ~ 1 + x1 + x2)$residuals -> z3

lm(y ~ z1 + z2 + z3) %>% summary()

你将会有:

Call:
lm(formula = y ~ x1 + x2 + x3)

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -2.1528     0.7973  -2.700  0.03558 *  
x1            2.1005     0.9730   2.159  0.07421 .  
x2            0.7895     0.9364   0.843  0.43149    
x3            6.8008     1.0055   6.764  0.00051 ***

Residual standard error: 0.7628 on 6 degrees of freedom
Multiple R-squared:  0.9293,    Adjusted R-squared:  0.8939 
F-statistic: 26.27 on 3 and 6 DF,  p-value: 0.0007538

Call:
lm(formula = y ~ z1 + z2 + z3)

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.18106    0.24121  13.188 1.17e-05 ***
z1          -0.05549    0.72386  -0.077  0.94139    
z2           4.41463    0.76784   5.749  0.00121 ** 
z3           6.80079    1.00551   6.764  0.00051 ***

Residual standard error: 0.7628 on 6 degrees of freedom
Multiple R-squared:  0.9293,    Adjusted R-squared:  0.8939 
F-statistic: 26.27 on 3 and 6 DF,  p-value: 0.0007538

因此,第二个模型中的截距可以解释为平均值为 和 的个体的期望值x1标准误降低了 78.21%。大多数时候,您对此值非常感兴趣。x2x3

此外,最大似然估计器变得更容易处理。([hendry2007econometric] 中的 5.2.3)

参考

  • hendry2007 计量经济学Hendry, DF, & Nielsen, B. (2007)。计量经济学建模:一种可能性方法。普林斯顿大学出版社。