因果模型假设 - 对实验的回归调整

机器算法验证 线性模型 因果关系 随机分配
2022-03-30 23:25:10

假设我们想用以下模型解释一个实验:

Yβ1X+β2R+ε

其中是内生变量,是随机处理水平。为了将这个模型的 OLS 拟合结果解释为因果关系,我们似乎想要验证不同的假设:(1),和 (2)如果 (1) 成立但 (2) 不成立,我们还能将的系数解释为因果关系吗?我们还有哪些其他选择?XRRεXεβ2

1个回答

这里有一些事情需要澄清。

结构方程吗?也就是说,您是否相信您列出的变量与结果之间的结构关系是真正的线性关系?Y=β1X+β2R+ϵ

如果是这样的话,也就是说,如果你真的相信回归代表了模型的结构方程,那么答案是微不足道的——如果那么你可以识别而不管(因为你随机化,我们也有那个,假设不是对撞机或调解器——更多内容如下)。Rϵβ2XϵRRXX

然而,如果不是一个结构方程,那么事情就更加微妙了。Y=β1X+β2R+ϵ

首先,您必须定义要估计的内容,因为本身不是结构参数。通常您想估计平均治疗效果(ATE)。β2

首先要记住的是,由于您进行了实验,您可以通过简单的均值差异获得 ATE,无需执行回归。

有时您希望控制实验之外的其他因素,以减少估计的方差。通过实验进行回归时,即使真实关系不是线性的,您仍然可以获得一致的 ATE 估计值。

但是你必须记住一些事情。正如 Freedman (2008) 所示,使用有限样本潜在结果模型:

  • 回归估计是有偏差的(尽管大样本偏差会变小);

  • 对渐近精度的影响并不明确:它可能会改善或恶化,主要取决于治疗和控制之间的平衡(如果不平衡,则取决于其他难以或无法测量的事物);

  • 通常(同方差)估计的标准误差会夸大精度。

然而,正如 Lin (2013) 所指出的,只要样本足够大,这些问题就可以得到解决。当使用全套治疗协变量交互作用时,OLS 调整不会损害渐近精度。此外,可以使用异方差一致估计量获得渐近有效置信区间。

另一个大问题是,一旦您开始在模型中包含协变量和不同的规格,您就是在进行规格搜索一旦研究人员尝试不同的协变量集以寻找“首选”规范,名义 I 型错误就不再成立。因此,如果您使用频率统计(如 p 值)来判断您的数据,则必须牢记这一点。

简而言之,您可以对您的实验进行多重回归调整,但是: (i) 确保您有足够的样本并包含完整的交互集;(ii) 使用适当的标准误;(iii) 始终向您的读者展示未经调整的简单均值差异,这是更“可靠”的“牌桌”估计。

最后一点,即使你的是随机的,你也应该小心你控制的变量。例如,如果你对总效果感兴趣,你不应该控制对撞机,也不应该控制中介。R