这是一个广泛的问题,我知道,但我觉得可以问,因为我到处搜索,但找不到答案。
所以我正在研究合成控制(这里:https ://matheusfacure.github.io/python-causality-handbook/15-Synthetic-Control.html ),我想为我正在运行的一个实验做,但我跑了陷入一个问题:当你的合成控制不太好时,你能做什么?我该如何改进它?
让我们以链接中的书为例。加利福尼亚州发生了政策变化,他们通过使用加利福尼亚州作为测试组并使用所有其他州作为综合控制组来评估政策变化的影响。作者通过使用其他州作为特征和加利福尼亚州作为目标运行线性回归来做到这一点。然后,他从回归中获取系数并使用它来构建他的合成组。但是,如果这个系数不那么贴切怎么办?如果当你应用它得到合成组时,这个组与你评估变化的地方不太相似怎么办?
正如评论中已经指出的,还有一个我没有提到的步骤,即系数的插值。不管怎样,问题都是一样的:假设你已经尝试了所有州和加利福尼亚的回归,尝试了插值,但误差仍然很大?我的意思是,假设回归 + 插值生成的系数不太适合数据,假设您将插值的系数应用于实际数据,以查看这些系数对加利福尼亚数据的预测效果如何,但是这些系数的预测误差做的太大了。有什么可以改进的吗?如果您尝试建立您的合成对照组,但效果不佳,您应该怎么做。