用外行的方式解释为什么预测模型不能进行因果解释

机器算法验证 计量经济学 因果关系 直觉 工具变量 教学
2022-02-05 18:44:15

想象一下,你被要求推断一些因果关系——结果的变化y响应一些变量x. 但是,要求这样做的人会指导您使用预测模型来执行此操作。这是设置:

  • x感到困惑,因为有一些未观察到的u这与两者有因果关系yx. 我们有一个经典的遗漏变量偏差。
  • 我们有高维协变量Z不独立于y或者x和/或u
  • 你被要求训练一套预测模型——神经网络、增强树等等——表示gi([x,Z])+ϵ在哪里i索引不同的模型,然后在其中选择模型i这最小化了一些预测技能的指标。例如,RMSE。
  • 根据选择的模型,您被要求报告
    y^x=g^i([x,Z])x
  • 你知道的
    E[y^x]yx
    在总体中,因为误差项包括遗漏变量,所以
    ϵx0 in the population, despite the fact that ϵ^x=0
    在任何合理的模型中g.

除了遗漏变量偏差之外,正则化也可能存在偏差!

  • 进一步假设你有一些因果模型——比如工具变量回归,利用一些合适的工具w为了x. 它是您的模型套件中的模型之一,但它在交叉验证 RMSE 方面的预测能力比其他模型差。

最好的模型是产生一致的因果估计的模型,对吧?但:

您将如何用外行的方式向某人解释这一点?

要求分析的人不懂因果推理,需要接受教育。但是,他们不懂数学,注意力也很有限。您如何有效地传达需要因果方法而预测方法不合适的基本观点? 没有数学,很多故事,简洁的句子。

4个回答

首先,我认为这不应该被视为严格的二分法:“预测模型永远无法建立因果推理”。在多种情况下,预测模型让我们“非常好”地相信存在给定的因果关系。所以我想说的是,预测模型——无论多么复杂——通常都不足以以高度的信心建立因果关系。现在,如何向完全不了解统计/数学的人解释这一点?

这是一种方法:

你听说过“相关不是因果关系”。这意味着仅仅因为两个变量(称为 A 和 B)是相关的,并不意味着一个变量会导致另一个变量。当相关性是由于与 A 和 B 都相关的第三个“混杂”变量引起的时,就会发生这种情况。例如:仅仅因为拥有大学学位与成年后的高收入相关并不意味着获得学位会导致这些收入会增加——可能是“有钱的父母”既可以让人们获得学位,又可以分别帮助他们赚更多的钱(即使上大学实际上什么也没做)。

预测模型试图通过统计“控制”混杂变量来解决这个问题。所以在上面的例子中,我们可以使用统计模型来分析学位和收入之间的关系,因为有钱父母的人更有可能拥有学位。

不幸的是,在实践中永远不可能控制每一个混杂变量。这部分是因为重要的变量(如学生的“个人动机”)可能不存在或无法衡量。甚至控制“父母有钱”也很棘手——有什么单一的数字可以完美地反映一个家庭的整个经济状况?我们如何确保我们拥有的数据是准确的?我们中的任何人都确切地知道我们的父母在我们成长的过程中有多“富有”吗?

预测模型的另一个问题是,即使您可以控制一切,他们也无法区分 A 导致 B 或 B 导致 A。因此,如果我们试图分析抑郁症对阿片类药物使用的影响,无论我们包含哪些控制变量我们不能确定我们观察到的效果不仅仅是由于阿片类药物导致抑郁症。请注意,这对于我们之前的示例可能不是问题,因为您作为成年人的收入不可能导致您早年上过大学。这是我们对这些变量如何工作的理论理解帮助我们理解对因果推理的威胁的一种方式。

完全确保 A 和 B 之间的关系是因果关系的唯一方法是通过实验控制人们如何“分配”到 A 的不同值(例如,是否获得大学学位)。如果分配给 A 是完全随机的,那么我们可以确定没有其他因素影响 A,这意味着在分析 A 和 B 之间的关系时,您不必担心任何混杂变量(甚至 B)。但是,原因如下:当我们考虑大学学位时,很明显,随机分配通常是不可行的或完全不道德的。所以我们必须使用其他研究设计方法来近似随机分配的因果关系。至关重要的是,这些其他方法(工具变量、回归不连续性、自然实验)依赖于世界本身的特征,

我认为这种解释最好按顺序进行。从一个简单的故事开始:

当我的狗温斯顿摇尾巴时,这表明他很高兴。例如,他从不在兽医面前摇晃它,当我拉上他的皮带时它会摇晃一点,当我也抓住一个网球时会摇晃很多。但如果我为他摇温斯顿的尾巴,通常会适得其反。

换句话说,“摇尾巴”可以很好地预测我的狗的心理状态,但我不能用这些知识让他开心(除非作为实验中的一种代理变量)。这里的因果关系非常简单,所以预测和原因之间的对比是鲜明的。

下一个比喻更现实,也更贴近现实:

如果你看看我公司销售人员的表现,那些拥有昂贵汽车的人是最有生产力的。虽然客户可能会觉得豪华车令人印象深刻,这使向他们销售更容易,但我们的销售是通过电话进行的,因此给我们的销售人员提供好车不太可能增加收入(除非承诺让客户接受交易达成后,保时捷可以转一圈)。

因果关系在这里是相反的,尽管销售和汽车之间的相关性有轻微的因果关系。

现在再举一个例子:

很明显,在手机上安装了我们的应用程序的人比只亲自购物和/或通过网站购物的人购买的东西更多。该应用程序发送通知,只需单击一下即可更轻松地购买东西。但人们不会无缘无故地安装应用程序。他们这样做是因为他们希望购买更多,而该应用程序使购买更加方便,因此比较使用和不使用该应用程序的客户就像比较苹果和猩猩一样。他们是非常不同的人。

这里有两个方向的因果关系,但可以说是高意图支出机制主导应用安装支出。当因果解释在两个方向都有效时,您通常可以通过实验来解决争论,看看哪个是最重要的。

现实世界比这些相当简单的故事要复杂得多,我们的直觉常常会以巨大的代价将我们带入歧途。以下是行业误认为因果关系的另外两个很好的例子:

  1. 阿斯卡萨,伊娃。保留无效:针对高风险客户可能无效。营销研究杂志 (JMR) 55,没有。1(2018 年 2 月):80–98。
  2. Blake, T.、Nosko, C. 和 Tadelis, S. (2015),消费者异质性和付费搜索有效性:大规模现场实验。计量经济学,83:155-174。https://doi.org/10.3982/ECTA12423

我认为您甚至不需要设置协变量调整集Z也不是黑盒模型的索引以通俗易懂的方式传达要点。假设如下:

  • y是给定城市在给定月份内溺水的人数
  • x是给定城市在给定月份内销售的冰淇淋数量
  • u是给定城市给定月份的温度,未观察到的混杂因素

x将高度预测y,并且很可能只是使用的模型x作为预测器,其性能将优于使用噪声测量的真正原因或其工具变量的模型。

显然,最好的预测模型不一定是给出最一致的因果估计的模型。

相关不等于因果。使用机器学习等先进技术的预测模型可以很好地发现预测变量与结果之间的关联,但这与确定这些变量之间的因果关系不同。

例如,作为一名研究人员,您可能会发现无家可归(Y) 和非法吸毒 (X) 在一个城市中,甚至可以高度准确地说,如果你知道一个人是吸毒者,你就可以预测他们无家可归。您能否自信地向市政府报告非法吸毒导致无家可归:XY,因此减少吸毒会减少无家可归者吗?

不,不是没有推断或收集有关两者之间因果关系的更多信息XY. 也许恰恰相反,无家可归会导致更高的非法吸毒风险:XY? 也许XY没有那么密切相关,甚至完全独立,实际上还有第三个变量,例如精神疾病(Z) 导致无家可归和非法吸毒:XZY? 在这两种情况下,您的因果推理模型的结构都必须与您在典型预测模型中看到的结构有所不同。还有许多其他可能性(例如中介变量和对撞变量)必须考虑或排除,以便绘制因果关系的完整图景。