Logistic 回归的差中差估计器

机器算法验证 物流 因果关系 干预分析 差异中的差异
2022-03-22 18:33:44

我有四组的干预前研究:1) 干预前控制,2) 干预前治疗,3) 干预后控制,和 4) 干预后治疗。结果是一个二元变量。还有其他四个预测变量。我正在重新分析以前的研究。在之前的研究中,他们在逻辑回归中使用了差异中的差异估计量,同时控制了四个预测变量。使用治疗和时间指标,模型为:

logit(Pr(y=1|Time,Treat))=α0Time+α1Treat+α2TimeTreat+βx

但是,回顾有关 DiD 估计器的文献,似乎在 logit 回归(任何具有非线性链接函数的回归)中使用 DiD 估计器会导致违反共同趋势假设。您可以想到预测结果不可能有共同趋势,因为它在 0 和 1 之间有支持。此外,根据基线的位置,索引值的差异(logit 函数中的内容),可以导致 y 的概率不同的边距。如果基线位于中间某个位置,则指数值的微小差异将极大地改变预测概率,而如果基线开始较高,则差异将很小。

那么这里的实际解决方案是什么?我应该如何重新分析这些数据?实际上,我该怎么做才能仍然能够根据 DiD 估计器和已经建立的研究设计得出因果结论?有任何想法吗?

2个回答

线性 DiD 方法
您可以坚持使用可以通过最小二乘法轻松估计的线性概率模型。为您的差异分析运行简单的线性回归有几个很好的属性:

  • DiD 系数很容易解释(对于非线性模型中的交互项不一定正确 - 参见Ai 和 Norton,2003 年);尽管如此,非线性方法仍然可以识别 DiD 系数的增量效应(参见Puhani,2012 年
  • 有几个选项可供您纠正错误的序列相关性;伯特兰等人。(2004)讨论了为什么这很重要,并提供了几个如何去做的选择(我在之前的答案中列出了可用的方法)
  • 线性概率模型要快得多,如果您有大量数据集,则尤其如此

线性概率模型的缺点是它在构造上是异方差的,尽管这不是什么大问题,因为它很容易调整。例如,块引导程序根据 Bertrand 等人的建议同时调整异方差性和自相关性。(2004 年)。如果您对预测感兴趣,则预测概率可能位于 (0,1) 范围之外,但据我阅读您的问题,您想了解 DiD 估计的治疗效果。

因此,如果这些问题对您来说都不是真正的问题,那么线性概率模型对于您的估计问题来说是一种简单快捷的解决方案。

非线性 DiD 方法
存在非线性 DiD 的替代模型,但没有一个是直接的。Blundell 和 Dias (2009)在指数线性假设下描述了流行的指数模型。他们注意到,即使使用非常简单的非线性规范,这种类型的 DiD 回归也难以实现。另一种选择是Athey 和 Imbens (2006),他们开发了一个允许二元结果的非线性 DiD 估计器。再一次,实现起来很容易,但为了完整起见,我在这里提到它。

非线性模型中交互项的直觉
Karaca-Mandic 等人。(2012)讨论了从线性模型到非线性模型时交互项的变化解释。它们提供了数学背景,并通过图表和使用公开可用的 Stata 数据集的应用示例支持读者理解。感谢 Dimitry V. Masterov 指出这个有用的参考。

听起来您担心的是模型规格错误。您有兴趣确定干预是否会随着时间的推移与治疗与控制相比导致结果风险的增量改善。听起来,特别是,您担心结果比较组在时间上相差 1 个单位的几率之间的关系的对数线性项可能不够充分。

对此有两种解决方案,但首先要注意:“所有模型都是错误的,有些模型是有用的”——George Box。我们问:时间效应出错的风险是什么?(说它是二次的)好吧,如果两组都在时间上一致地测量,实际上没有区别。这就是平衡设计的价值。当存在不平衡且指定模型正确时,调整时间可提高精度。如果您愿意假设指定的时间效应“接近正确”(可能存在弱非线性趋势),那么使用稳健的标准误差可确保推断对实际干预效果的正确性。因此,参数的解释是“时间平均”效应。

另一种解决方案是使用更精细的时间效应。您可以测试具有时间分类效应的嵌套模型,而不是假设线性增加。例如,假设有四个时间点:两个干预前和两个干预后。那么分类模型将是:

logit(Y|X,T)=α+β1X+γ1T2+γ2T3+γ3T4

反对完整的模型

logit(Y|X,T)=α+β1X+γ1T2+γ2T3+γ3T4+ηXT4

以及所有治疗后参数的同时测试(一个η治疗后每增加一个单位时间......用霍桑效应解释β1) 将解释按时间交互的分类效果。