随机对照试验中的二元结果——OLS还是逻辑?

机器算法验证 物流 多重回归 实验设计
2022-03-15 16:36:22

我正在进行一项随机对照试验,该试验在协变量中具有良好的平衡。我不确定是否使用:

  • OLS:P(Yi=1)=β0+β1Treat+ϵi.

这是有问题的,因为二进制的方差Y不是同方差的,因此使 OLS 假设无效。请注意,右侧 (RHS) 只有 0-1 指示符Treat,所以我没有 RHS 超出 0-1 范围的问题。

β1在这种情况下,只是对照组和治疗组之间样本均值的差异。

  • 物流:logit(P(Yi=1))=β0+β1Treat

这是有问题的,因为正确的模型需要包括其他协变量(尽管有平衡),而不仅仅是Treat指标。的实质性影响β1P然后取决于这些其他协变量的值。但是,我不再看到我的实验设计的好处,这使我无法控制 OLS 案例中的任何其他协变量。

到目前为止我得到的答案摘要:

  • @glen_b 建议尽管进行实验设计,但我应该在 OLS 和逻辑中包含预测变量以提高精度。在这种二元结果的情况下,包括其他预测变量意味着 OLS 不再是一个选项(因为 RHS 现在可以超出 0-1 范围)

  • @AMD 建议如何解释逻辑回归中的治疗效果,无论是否包含其他预测变量:

    p1p=exp(β0+β1Treat+β2X)

什么时候Treat=0:p1p=exp(β0+β2X)

什么时候Treat=1:p1p=exp(β0+β2X)×exp(β1)

因此,处理效果是它乘以奇数比 (p1p) 经过exp(β1). 亲:这种效果的大小不依赖于其他X. 缺点:这不是直接关于p, 有些人可能对此感兴趣。

由于几个相互矛盾的建议,剩下的问题是:如果我不太关心精度,只是想证明我的治疗的因果效应,考虑到实验设计,是否可以在逻辑中不包括其他预测变量?如果我没有包含一些交互(可观察和/或不可观察),是β1Treat还是对因果效应的一致估计?

2个回答

为清楚起见进行编辑:看起来我在这里的回答已经导致对问题的一些澄清补充或评论中的其他信息,这使得我的部分答案现在至少部分过时了。但是,我计划保留我的答案,部分是为了上下文,部分是因为我相信提出的观点可能与后来的读者有关。

稍微改变一下顺序:

逻辑:......这是有问题的,因为正确的模型需要包括其他协变量(尽管有平衡),而不仅仅是 Treat 指标。

两个模型都应该包括可能产生实质性影响的预测变量,即使设计是完全平衡的并且变量之间没有相互作用例如,如果你有它们就省略它们会降低功率 - 例如,在 OLS 中,它通过将它们的影响合并到误差中来扩大误差方差。

[此外,如果变量之间可能存在交互作用,您将无法在模型中得到正确的期望。您应该考虑对这些变量的潜在交互进行诊断检查,包括与否。]

OLS:......这是有问题的,因为二进制 Y 的方差不是同方差的,

这甚至不是 OLS 在这方面最糟糕的问题。更严重的问题是,一旦包含其他协变量*,这种关系就不可能是线性的——你将——必然有一个模型来预测负数和大于 1 的概率(预测而不是拟合)。

*(我坚信你应该这样做,除非你确信它们实际上与Y)

许多经济学家使用线性概率模型,认为 LPM 提供了条件期望函数的线性近似,这通常被认为“足够好”。一致的(在大样本中)标准误差可以通过使用“稳健”的方差-协方差矩阵估计器来获得。

如果您真的只是想要,这是一个不错的论点β,并希望它在更大的群体中可以被解释为有条件的期望。如果您对预测感兴趣,您不希望这样做。

但实际上,认为β将概率增加一定量只能在平均上有意义(因此样本中的条件期望,您可以将其推广到总体)。它不能描述你期望单位发生的事情i如果你对待他们。因为如果i具有将它们向上或向下推的协变量,然后添加β这些协变量的影响可能导致概率超出 0/1,这没有任何意义。

也就是说,logit 模型涉及假设预测变量和结果之间的联系是 logit。这可能是限制性的。

但是您可以通过取幂来将简单的 logit 系数解释为优势比。例如,如果β^=1,那么你估计治疗会导致e1=2.7- 几率高出几倍y等于 1。