我想知道工具变量如何解决回归中的选择偏差。
这是我正在咀嚼的例子:在Mostly Harmless Econometrics中,作者讨论了与服兵役和晚年收入有关的 IV 回归。问题是,“在军队服役会增加还是减少未来的收入?” 他们在越南战争的背景下调查了这个问题。我知道兵役不能随机分配,这是因果推理的问题。
为了解决这个问题,研究人员使用征兵资格(如“你的征兵编号被称为”)作为实际服兵役的工具。这是有道理的:越南征兵将年轻的美国男性随机分配到军队中(理论上——这些应征者是否实际服役涉及到我的问题)。我们的另一个 IV 条件似乎很可靠:征兵资格和实际兵役是强正相关的。
这是我的问题。看起来你会得到自我选择的偏见:也许更富有的孩子可以退出在越南服役,即使他们的选秀号码被告知。(如果事实并非如此,为了我的问题,让我们假装)。如果这种自我选择在我们的样本中产生了系统性偏差,那么我们的工具变量如何解决这种偏差?我们是否必须将我们的推断范围缩小到“无法逃脱选秀的那类人”?或者 IV 是否以某种方式挽救了我们推理的那一部分?如果有人能解释这是如何工作的,我将不胜感激。