在估计中应用逆概率加权时,我是否仍需要在回归模型中包含用于生成权重的变量?

机器算法验证 民意调查 预测器 加权回归
2022-04-01 00:11:14

说,我想运行这样的回归:y=x1+x2+x3+x4+x5.

我用x3,x4x5生成逆概率权重(π) 的可用性y.

我生成π与可用性的逻辑回归y(观察值=0 或 1)如下:

obs = 1 如果y不是 NA

obs = 0 如果y是 NA

缺少模型:glm(obs〜 x3+x4+x5,数据=数据,家庭=二项式)

π= 1/缺失模型$fitted.values

如果我包括这个π根据我的主要分析,我还需要包括x3,x4x5在回归?

即我的模型应该是

(1)y=x1+x2+x3+x4+x5π用于估计或

(2)y=x1+x2π用于估计。

谢谢你。

关于逆概率加权(IPW):

在IPW 方法中,指定了一个缺失模型,即一个个体是一个完整案例的概率模型。分析模型仅适用于完整案例,但某些完整案例的权重高于其他案例。

肖恩·R·希曼和伊恩·R·怀特。回顾用于处理缺失数据的逆概率加权。统计方法医学研究。2013 年 6 月;22(3):278-95

1个回答

这实际上取决于您的研究问题。没有“规则”;这是一个理论问题。假设您的变量之一π是家庭中成年人的数量(adults)。这将是一个相当常见的变量,包含在逆概率权重中,因为家庭中的成年人越多,如果只选择一个成年人来完成调查,那么家庭中任何给定成年人被选中的概率就越低。现在,假设您感兴趣的结果是家庭是否高于或低于贫困线。你会想要包括adults在您的模型中,因为 (a) 更多的成年人可能意味着更多的工作成员为更高的家庭收入做出贡献,因此家庭贫困的可能性更小,或者 (b) 更多的成年人可能意味着更多的嘴巴可以用一个家庭收入来养活,因此更有可能家庭贫困。你会想要确保拥有adults在您的模型中,因此您可以测试以查看您的数据支持哪些假设(或两者)。但是,如果您有理由认为,例如,更多的成年人会与更大的无反应和更大的贫困相关联,那么您还需要查看有关内生选择的文献,以了解如何最好地指定您的模型。所以就像许多计量经济学问题一样,你的答案取决于你的理论,而不仅仅是你的数据。