哪种设置对于使用差异回归模型的差异是正确的
其中 T 是一个虚拟变量,如果观察来自治疗组,则等于 1,d 是一个虚拟变量,在治疗发生后的时间段内等于 1
1)每组和时间的随机样本(即4个随机样本)
或者
2) 在两个时间段内跟踪相同单位的面板数据?
这是否重要,如果不重要,OLS 是否可以用于任何一种情况?
哪种设置对于使用差异回归模型的差异是正确的
其中 T 是一个虚拟变量,如果观察来自治疗组,则等于 1,d 是一个虚拟变量,在治疗发生后的时间段内等于 1
1)每组和时间的随机样本(即4个随机样本)
或者
2) 在两个时间段内跟踪相同单位的面板数据?
这是否重要,如果不重要,OLS 是否可以用于任何一种情况?
差中差 (DID) 的一个关键假设是两组在治疗前的结果变量具有共同趋势。这对于证明治疗组的变化是因为治疗而不是因为两组从一开始就已经不同的论点很重要。
如果您在治疗之前和之后对不同的人进行抽样,这将削弱论点,除非您来自治疗组和对照组的样本实际上是随机且大量的。所以很可能有人会问你:“你怎么能确定效果是由治疗引起的,而不仅仅是因为你对不同的人进行了抽样?” - 这将很难回答。您可以通过使用面板数据来避免这个问题,因为您可以随时间跟踪相同的统计单位,通常这是更可靠的方法。
回答你的最后一个问题:是的,数据很重要,但你当然可以使用 OLS 来估计上面的方程。过去经常被忽视的一件重要事情是对标准误差的正确估计。如果您不纠正它们,序列相关性将大大低估它们,并且您会发现显着的影响,即使您可能不应该这样做。作为如何处理此问题的参考和建议,请参阅Bertrand 等人。(2004 年)“我们应该在多大程度上相信差异中的差异估计?” .
最后,如果您有汇总数据(例如在州一级),或者如果您可以轻松汇总您的数据,并且如果您想使用比 DID 更新的计量经济学方法,您可能想看看Abadie 等人。(2010)“比较案例研究的综合控制方法”。合成控制方法越来越多地用于当今的研究,并且存在 R 和 Stata 的有据可查的例程。也许这对您来说也很有趣。