Andrew Gelman 在他最近的一篇博客文章中说:
我不认为反事实或潜在结果对于辛普森悖论是必要的。我这样说是因为人们可以用无法操纵的变量来建立辛普森悖论,或者对那些操纵不直接感兴趣的变量。
辛普森悖论是一个更普遍的问题的一部分,即如果添加更多预测变量,回归系数会发生变化,符号的翻转并不是真正必要的。
这是我在教学中使用的一个例子,它说明了这两点:
我可以运行回归预测来自性别和身高的收入。我发现性别系数为10,000美元(即,比较相同身高的男女,男性平均会多赚10,000美元),身高系数为 500美元(即,比较两个男人或两个女人不同身高的人,平均而言,较高的人每英寸身高会多赚 500 美元)。
我该如何解释这些系数?我觉得身高系数很容易解释(很容易想象比较两个不同身高的同性),确实在不控制性别的情况下回归身高似乎有点“错误” ,就像原始的一样矮个子和高个子之间的差异可以通过男女之间的差异来“解释”。但上述模型中的性别系数似乎很难解释:例如,为什么要比较身高均为 66 英寸的男性和女性?那将是一个矮个子男人与一个高个子女人的比较。所有这些推理似乎都有模糊的因果关系,但我认为使用潜在结果来考虑它是没有意义的。
我思考了一下(甚至在帖子上发表了评论),并认为这里有一些东西需要更清楚地理解。
直到关于性别解释的部分都很好。但我不明白将一个矮个子男人和一个高个子女人进行比较有什么问题。这是我的观点:事实上它更有意义(假设男性平均更高)。您不能出于完全相同的原因比较“矮个男人”和“矮个”女人,即收入差异在某种程度上可以由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说,这更不可能了)。所以基本上只有在比较矮个男人和高个女人的情况下才会消除身高的影响(这有助于解释性别系数)。这不是对流行匹配模型背后的类似基本概念敲响了警钟吗?
辛普森悖论背后的想法是人口效应可能与亚组效应不同。这在某种意义上与他的第 2 点有关,并且他承认不应单独控制身高(我们所说的省略变量偏差)。但我无法将这与关于性别系数的争议联系起来。
也许你可以更清楚地表达它?或者评论一下我的理解?