我想研究教育计划对二元就业结果(正面与负面)的因果影响。我有两组学生——一组参加了教育计划(治疗组),另一组没有参加(对照组)。
这些群体在背景人口统计数据上的比例非常不平衡。我已经使用 R 包中的性别、种族、社会经济阶层等背景人口统计数据实现了 1:1 最近邻倾向得分匹配MatchIt。在评估了我的余额统计数据后,我现在确信样本与这些背景人口统计数据非常匹配.
我花了很长时间浏览 Stuart (2010) 和 Austin (2007) 等关于如何进行匹配后分析的建议,这就是我开始困惑的地方。
我正在尝试遵循 Stuart 的论文。并且它表明没有必要考虑 k:1 匹配后的匹配对,而是“以匹配过程中使用的变量为条件(例如通过回归模型)就足够了。” 我是否应该将此解释为包括背景人口统计数据,以及作为逻辑回归模型中的自变量的教育计划指标,而就业结果是我的因变量(例如,glm在 R 中使用)?还是暗示我应该使用条件逻辑回归?据我了解,条件逻辑回归确实考虑了数据的匹配方面,对吗?
我也不确定将背景人口统计数据纳入后倾向得分匹配分析的建模是否合适?我已经看到一些研究按照他们所说的那样做,尽管治疗组/对照组之间在这些变量上没有差异,但它们可能会对感兴趣的结果产生影响,例如,尽管那些在教育/不在教育中的学生的社会经济阶层计划是平衡的,这个变量可能会对就业结果产生影响。我还看到一些研究完全忽略了它们。
我没有很多书籍,但很高兴被引导到网络上的可用论文。