来自 Pearl 等人的问题 2.4.1 部分 a)。“统计中的因果推理:入门”

机器算法验证 回归 自习 因果关系
2022-04-01 03:31:38

我正在解决 Pearl 等人的练习 2.4.1 a) 部分。“统计中的因果推理:入门”(2016 年)。

在此处输入图像描述

我发现在图 2.9 中,变量是独立于变量的条件: (在解决方案手册中可以找到相同的答案。)我想通过经验来说明这一点,因此我生成了与图表兼容的数据,如下所示(在 R 中):YZ1{X,Z2,Z3}

YZ1|{X,Z2,Z3}.

n=1e5
set.seed(1); Z1=rnorm(n)
set.seed(2); Z2=rnorm(n)
set.seed(3); Z3=rnorm(n)+Z1+Z2
set.seed(4); X=rnorm(n)+Z1+Z3
set.seed(5); W=rnorm(n)+X
set.seed(6); Y=rnorm(n)+W+Z1+Z2

然后我估计一个模型 并期望发现由于上面提到的条件独立性在统计上不显着。但是,结果是不合时宜的:

Y=β0+β1Z1+β2Z2+β3Z3+β4X+ε
β^1

> m1=lm(Y~Z1+Z2+Z3+X)
> summary(m1)

Call:
lm(formula = Y ~ Z1 + Z2 + Z3 + X)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.7134 -0.9562 -0.0052  0.9533  6.7408 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.009183   0.004500  -2.041   0.0413 *  
Z1           0.993558   0.007770 127.868   <2e-16 ***
Z2           1.002707   0.006349 157.923   <2e-16 ***
Z3          -0.009440   0.006354  -1.486   0.1373    
X            1.008032   0.004507 223.636   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.423 on 99995 degrees of freedom
Multiple R-squared:  0.8817,    Adjusted R-squared:  0.8817 
F-statistic: 1.863e+05 on 4 and 99995 DF,  p-value: < 2.2e-16

这当然可能是一个不幸的案例。我已经尝试了一些其他随机种子来生成数据,但我一直得到一个非常重要的在许多其他情况下变得很重要,我认为它应该如此。)β^1β^3

我究竟做错了什么?

顺便说一句,我已经在图 2.9 中评估了其他几对变量之间的条件独立性,并且我从相同的模拟数据中得到了预期的结果(只是不同的回归)。

1个回答

我认为您用于模拟数据的代码有错字。开头的行中应该是set.seed(6) Z1Z3