首先,我认为这不应该被视为严格的二分法:“预测模型永远无法建立因果推理”。在多种情况下,预测模型让我们“非常好”地相信存在给定的因果关系。所以我想说的是,预测模型——无论多么复杂——通常都不足以以高度的信心建立因果关系。现在,如何向完全不了解统计/数学的人解释这一点?
这是一种方法:
你听说过“相关不是因果关系”。这意味着仅仅因为两个变量(称为 A 和 B)是相关的,并不意味着一个变量会导致另一个变量。当相关性是由于与 A 和 B 都相关的第三个“混杂”变量引起的时,就会发生这种情况。例如:仅仅因为拥有大学学位与成年后的高收入相关并不意味着获得学位会导致这些收入会增加——可能是“有钱的父母”既可以让人们获得学位,又可以分别帮助他们赚更多的钱(即使上大学实际上什么也没做)。
预测模型试图通过统计“控制”混杂变量来解决这个问题。所以在上面的例子中,我们可以使用统计模型来分析学位和收入之间的关系,因为有钱父母的人更有可能拥有学位。
不幸的是,在实践中永远不可能控制每一个混杂变量。这部分是因为重要的变量(如学生的“个人动机”)可能不存在或无法衡量。甚至控制“父母有钱”也很棘手——有什么单一的数字可以完美地反映一个家庭的整个经济状况?我们如何确保我们拥有的数据是准确的?我们中的任何人都确切地知道我们的父母在我们成长的过程中有多“富有”吗?
预测模型的另一个问题是,即使您可以控制一切,他们也无法区分 A 导致 B 或 B 导致 A。因此,如果我们试图分析抑郁症对阿片类药物使用的影响,无论我们包含哪些控制变量我们不能确定我们观察到的效果不仅仅是由于阿片类药物导致抑郁症。请注意,这对于我们之前的示例可能不是问题,因为您作为成年人的收入不可能导致您早年上过大学。这是我们对这些变量如何工作的理论理解帮助我们理解对因果推理的威胁的一种方式。
完全确保 A 和 B 之间的关系是因果关系的唯一方法是通过实验控制人们如何“分配”到 A 的不同值(例如,是否获得大学学位)。如果分配给 A 是完全随机的,那么我们可以确定没有其他因素影响 A,这意味着在分析 A 和 B 之间的关系时,您不必担心任何混杂变量(甚至 B)。但是,原因如下:当我们考虑大学学位时,很明显,随机分配通常是不可行的或完全不道德的。所以我们必须使用其他研究设计方法来近似随机分配的因果关系。至关重要的是,这些其他方法(工具变量、回归不连续性、自然实验)依赖于世界本身的特征,