有人如何改进合成控制?

机器算法验证 计量经济学 面板数据 控制组 综合控制
2022-03-28 08:30:45

这是一个广泛的问题,我知道,但我觉得可以问,因为我到处搜索,但找不到答案。

所以我正在研究合成控制(这里:https ://matheusfacure.github.io/python-causality-handbook/15-Synthetic-Control.html ),我想为我正在运行的一个实验做,但我跑了陷入一个问题:当你的合成控制不太好时,你能做什么?我该如何改进它?

让我们以链接中的书为例。加利福尼亚州发生了政策变化,他们通过使用加利福尼亚州作为测试组并使用所有其他州作为综合控制组来评估政策变化的影响。作者通过使用其他州作为特征和加利福尼亚州作为目标运行线性回归来做到这一点。然后,他从回归中获取系数并使用它来构建他的合成组。但是,如果这个系数不那么贴切怎么办?如果当你应用它得到合成组时,这个组与你评估变化的地方不太相似怎么办?

正如评论中已经指出的,还有一个我没有提到的步骤,即系数的插值。不管怎样,问题都是一样的:假设你已经尝试了所有州和加利福尼亚的回归,尝试了插值,但误差仍然很大?我的意思是,假设回归 + 插值生成的系数不太适合数据,假设您将插值的系数应用于实际数据,以查看这些系数对加利福尼亚数据的预测效果如何,但是这些系数的预测误差做的太大了。有什么可以改进的吗?如果您尝试建立您的合成对照组,但效果不佳,您应该怎么做。

2个回答

除了其他出色的答案(是的,更多数据确实有帮助,这可能包括不同级别的聚合,例如,您可以获得县级数据而不是州级数据吗?),还可以选择缩短或加权匹配合成控制的时间范围。例如,在书中的示例中,他们本可以更进一步(假设数据可用),但他们显然做出了选择,例如匹配二战前数据的轨迹与手头的问题无关。您还可以决定,在与 1987 年数据匹配的重要性滑动尺度上,其重要性是匹配 1977 年数据的两倍(您可以通过加权损失函数或仅缩放您匹配的值来实现 - 例如缩放标准化值1977 年0.50.707)。这将认为,最近的类似轨迹比过去发生的更重要。

但是,存在插值合成控件无法匹配处理单元的情况。那是可用单位中最极端的时候。例如,在书中的例子中,如果加州在干预之前拥有最高(或最低)的人均卷烟销售量,那么其他州的加权平均值就不会与其数字相匹配。虽然可能有办法绕过它(例如,如果你去县级,并且有一些县可以与加利福尼亚县相匹配),这也将是一个很大的危险信号,警告你也许没有其他州真正看起来像加利福尼亚并且试图将加利福尼亚发生的事情与这些州发生的事情进行比较确实是有问题的。即它可能是一个警告,可能没有好的答案。报价_John Tukey:“一些数据和对答案的强烈渴望的结合并不能确保可以从给定的数据体中提取合理的答案。”

您有时可以通过以下方式提高合身性:

  • 在可能的情况下获取更多的预处理数据,尽管这样做可能会导致结构关系与研究期间的结构关系过于不同,例如 CA 是墨西哥的时候。此外,并不总是有效。
  • 在计算权重时添加不仅是滞后结果的变量,例如啤酒消费量和人均收入。
  • 从潜在供体库中删除与治疗单位不同的单位:
    • 仅使用在研究期间未采用类似于正在调查的干预措施的未经处理的单位。
    • 在研究期间,不要对感兴趣的结果造成巨大的特殊/局部冲击。
    • 具有与受影响单位的特征相似的特征。
  • 有时可以通过使用因变量的变换来改进拟合(例如,ΔYit或者ΔYitYit,因此您匹配的是趋势或增长而不是水平。如果您的治疗单位相对于未经治疗的单位较大,则按人口进行标准化可能会有所帮助,例如如果他们没有按人均完成 CA,则可能会有所帮助。
  • 如果拟合偏差随时间保持不变,您可以简单地将其从效果中减去。但是,我从未见过这种情况在野外发生。-- 如果不适合主要是在早期的治疗前阶段,如果动机良好,可以排除该阶段。
  • 如果不适合处于治疗前后期,这可能表明治疗预期的证据。例如,如果消费者知道税收即将到来,他们可以囤积烟草并将其放入冰箱。然后将治疗开始日期移回增税公告会有所帮助。

如果仍然不合适,请放弃该项目并继续您的生活或尝试其他方式。