我不确定这叫什么,但我记得看到我的一个同事在做多元回归,就像
然后他说他会“正交化”所以他将每个IV与其他IV进行回归,并取残差......如:
之后他重新进行了回归:
我以前从未见过这个,是否有一个参考或名称,我可以在其中搜索更多关于这个以及为什么/什么时候想做这样的事情?
我不确定这叫什么,但我记得看到我的一个同事在做多元回归,就像
然后他说他会“正交化”所以他将每个IV与其他IV进行回归,并取残差......如:
之后他重新进行了回归:
我以前从未见过这个,是否有一个参考或名称,我可以在其中搜索更多关于这个以及为什么/什么时候想做这样的事情?
我想你记错了过程的结束。在 R 中,它会是这样的:
# generating random x1 x2 x3 in (0,1) (10 values each)
> x1 <- runif(10)
> x2 <- runif(10)
> x3 <- runif(10)
# generating y
> y <- x1 + 2*x2 + 3*x3 + rnorm(10)
# classical regression
> lm(y ~ x1 + x2 + x3)
Call:
lm(formula = y ~ x1 + x2 + x3)
Coefficients:
(Intercept) x1 x2 x3
0.2270 2.0088 0.2746 3.1529
# "orthogonalized" regression
> lm(x1 ~ x2 + x3)$residuals -> z1
> lm(x2 ~ x1 + x3)$residuals -> z2
> lm(x3 ~ x1 + x2)$residuals -> z3
> lm(y ~ z1)
Call:
lm(formula = y ~ z1)
Coefficients:
(Intercept) z1
3.056 2.009
> lm(y ~ z2)
Call:
lm(formula = y ~ z2)
Coefficients:
(Intercept) z2
3.0560 0.2746
> lm(y ~ z3)
Call:
lm(formula = y ~ z3)
Coefficients:
(Intercept) z3
3.056 3.153
看?对于 ,您会得到相同的估计值。请注意,截距是不同的;残差居中,因此回归的截距只是的平均值(对于和)。一旦你得到,就不难找到经典回归的截距。y ~ z1
数学解释将在上一版统计学习的要素的第 54-55 页中找到——比我能写的任何东西都要清晰和准确(可在线获得)。
这是Frisch Waugh Lovell 定理的实际应用
Ruud 的经典计量经济学理论导论尽可能地骑着 FWL 小马。这是一个非常有趣的回归几何。
模型可以重新参数化,从而出现两个新的似然方程,每个方程只有一个未知参数。这将有助于求解似然方程,也有助于回归模型的一般解释和使用。(7.2.2 in [hendry2007econometric])
假设您要重新参数化以下模型:(请注意,可以是某个先前回归量的任何转换)
,和可以同时正交化。在书中,操作是基于一个常数向量。
按照@Elvis的例子:
library(magrittr)
## generating random x1 x2 x3 in (0,1) (10 values each)
x1 <- runif(10)
x2 <- runif(10)
x3 <- runif(10)
## generating y
y <- x1 + 2 * x2 + 3 * x3 + rnorm(10)
## classical regression
lm(y ~ x1 + x2 + x3) %>% summary()
## orthogonalize regressors on a unit vector
lm(x1 ~ 1)$residuals -> z1
lm(x2 ~ 1 + x1)$residuals -> z2
lm(x3 ~ 1 + x1 + x2)$residuals -> z3
lm(y ~ z1 + z2 + z3) %>% summary()
你将会有:
Call:
lm(formula = y ~ x1 + x2 + x3)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.1528 0.7973 -2.700 0.03558 *
x1 2.1005 0.9730 2.159 0.07421 .
x2 0.7895 0.9364 0.843 0.43149
x3 6.8008 1.0055 6.764 0.00051 ***
Residual standard error: 0.7628 on 6 degrees of freedom
Multiple R-squared: 0.9293, Adjusted R-squared: 0.8939
F-statistic: 26.27 on 3 and 6 DF, p-value: 0.0007538
Call:
lm(formula = y ~ z1 + z2 + z3)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.18106 0.24121 13.188 1.17e-05 ***
z1 -0.05549 0.72386 -0.077 0.94139
z2 4.41463 0.76784 5.749 0.00121 **
z3 6.80079 1.00551 6.764 0.00051 ***
Residual standard error: 0.7628 on 6 degrees of freedom
Multiple R-squared: 0.9293, Adjusted R-squared: 0.8939
F-statistic: 26.27 on 3 and 6 DF, p-value: 0.0007538
因此,第二个模型中的截距可以解释为平均值为 和 的个体的期望值,x1其标准误降低了 78.21%。大多数时候,您对此值非常感兴趣。x2x3
此外,最大似然估计器变得更容易处理。([hendry2007econometric] 中的 5.2.3)