我正在研究连续变量 A 对观测数据集中另一个因子变量 C 分层的测量变量 M 的影响。
由于异方差性,我决定使用自举回归分析。但是查看数据,如果我将 A(存在与否)二分法,则背景变量集不会均匀分布。我刚刚完成了另一项分析,在匹配混杂因素的数据集(在 R 中使用 CEM)后,我进行了相同的分析。
现在的问题是要信任哪种分析:整个数据集的自举回归方法还是匹配数据的自举版本?在 C 中的一个因素下,结果出现分歧。
任何想法如何分析?
我正在研究连续变量 A 对观测数据集中另一个因子变量 C 分层的测量变量 M 的影响。
由于异方差性,我决定使用自举回归分析。但是查看数据,如果我将 A(存在与否)二分法,则背景变量集不会均匀分布。我刚刚完成了另一项分析,在匹配混杂因素的数据集(在 R 中使用 CEM)后,我进行了相同的分析。
现在的问题是要信任哪种分析:整个数据集的自举回归方法还是匹配数据的自举版本?在 C 中的一个因素下,结果出现分歧。
任何想法如何分析?
你需要担心一个皱纹。在匹配的情况下,您将丢弃观察结果(即那些不匹配且未将其纳入分析的观察结果)并且有些可能会被复制。这些决定不是随机的。它们是协变量的函数。因此,在这种情况下创建置信区间有点复杂。要计算适当的标准误差,请参阅Abadie 和 Imbens的(Matching Estimators for Average Treatment Effects by Abadie and Imbens)的大样本属性。此外,Abadie 还有一篇关于匹配估计器的引导失败的论文。要实现 Abadie-Imbens 标准误差,请参阅 Jas Sekhon 在 R 中的匹配包。
关于相信哪个估计器的问题,这取决于您认为匹配对混杂因素的正确控制程度,我倾向于相信这种方法。您的第一组分析似乎无法以任何方式控制这些因素?如果您认为它们很重要,那么您可能不会倾向于相信这些结果。