我正在解决 Pearl 等人的练习 2.4.1 a) 部分。“统计中的因果推理:入门”(2016 年)。
我发现在图 2.9 中,变量和是独立于变量的条件:
(在解决方案手册中可以找到相同的答案。)我想通过经验来说明这一点,因此我生成了与图表兼容的数据,如下所示(在 R 中):
n=1e5
set.seed(1); Z1=rnorm(n)
set.seed(2); Z2=rnorm(n)
set.seed(3); Z3=rnorm(n)+Z1+Z2
set.seed(4); X=rnorm(n)+Z1+Z3
set.seed(5); W=rnorm(n)+X
set.seed(6); Y=rnorm(n)+W+Z1+Z2
然后我估计一个模型
并期望发现由于上面提到的条件独立性在统计上不显着。但是,结果是不合时宜的:
> m1=lm(Y~Z1+Z2+Z3+X)
> summary(m1)
Call:
lm(formula = Y ~ Z1 + Z2 + Z3 + X)
Residuals:
Min 1Q Median 3Q Max
-5.7134 -0.9562 -0.0052 0.9533 6.7408
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.009183 0.004500 -2.041 0.0413 *
Z1 0.993558 0.007770 127.868 <2e-16 ***
Z2 1.002707 0.006349 157.923 <2e-16 ***
Z3 -0.009440 0.006354 -1.486 0.1373
X 1.008032 0.004507 223.636 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.423 on 99995 degrees of freedom
Multiple R-squared: 0.8817, Adjusted R-squared: 0.8817
F-statistic: 1.863e+05 on 4 and 99995 DF, p-value: < 2.2e-16
这当然可能是一个不幸的案例。我已经尝试了一些其他随机种子来生成数据,但我一直得到一个非常重要的。(在许多其他情况下变得很重要,我认为它应该如此。)
我究竟做错了什么?
顺便说一句,我已经在图 2.9 中评估了其他几对变量之间的条件独立性,并且我从相同的模拟数据中得到了预期的结果(只是不同的回归)。