机器学习是不是对理解因果关系没那么有用,因此对社会科学也没那么有趣了?

机器算法验证 机器学习 计量经济学
2022-01-27 12:25:44

我对机器学习/其他统计预测技术与社会科学家(例如经济学家)使用的统计数据之间的区别的理解是,经济学家似乎对理解单个或多个变量的影响非常感兴趣——无论是在大小和检测关系是否是因果关系。为此,您最终会使用实验和准实验方法等来关心自己。

具有预测性的机器学习或统计建模通常完全忽略了这一方面,并​​且在许多情况下并没有给出一个变量影响结果的特定程度(logit 和 probit 似乎两者都起作用)。

一个相关的问题是,在预测新领域时,受理论启发的经济或行为模型在多大程度上优于非理论模型?如果没有经济模型,您将无法正确预测协变量差异很大的新样本,那么机器学习或面向预测的统计学家会怎么说。

我很高兴听到人们从各个角度对此的看法。

4个回答

恕我直言,在将模型拟合到数据的基本层面上,机器学习和统计没有正式的区别。在模型的选择、将模型与数据拟合的目标以及在某种程度上的解释方面可能存在文化差异。

在我能想到的典型例子中,我们总是有

  • 一个模型集合 for for some index setMiiII
  • 并且对于每个未知分量(参数,可能是无限维的)iθiMi

拟合到数据几乎总是一个数学优化问题,包括找到未知分量的最佳选择,以使适合由某些喜欢的函数测量的数据。MiθiMi

模型之间的选择不太标准,并且有一系列可用的技术。如果模型拟合的目标是纯粹的预测,则模型选择是为了获得良好的预测性能,而如果主要目标是解释结果模型,则可以选择更容易解释的模型而不是其他模型,即使它们预测能力预计会更差。Mi

所谓的老派统计模型选择是基于统计测试,可能与逐步选择策略相结合,而机器学习模型选择通常侧重于预期的泛化误差,这通常使用交叉验证来估计。然而,当前模型选择的发展和理解似乎趋向于一个更共同的基础,例如,参见模型选择和模型平均

从模型推断因果关系

问题的关键是我们如何解释一个模型?如果获得的数据来自精心设计的实验并且模型是充分的,那么我们可以将模型中变量变化的影响解释为因果效应是合理的,并且如果我们重复实验并干预这个特定的变量我们可以期待观察估计的效果。然而,如果数据是观察性的,我们就不能期望模型中的估计效果对应于可观察到的干预效果。无论模型是“机器学习模型”还是“经典统计模型”,这都需要额外的假设。

使用经典统计模型训练的人可能会认为,因果解释在这个框架中比在机器学习框架中更有效。我会说不是。

统计中的因果推理领域并没有真正消除问题,但它确实使因果结论所依据的假设变得明确。它们被称为不可检验的假设统计中的因果推理: Judea Pearl的概述是一篇值得阅读的好论文。因果推理的一个主要贡献是收集了在实际存在未观察到的混杂因素的假设下估计因果效应的方法,否则这是一个主要问题。参见上面 Pearl 论文中的第 3.3 节。更高级的例子可以在论文Marginal Structural Models and Causal Inference in Epidemiology 中找到。

不可检验的假设是否成立是一个主题问题。它们完全无法测试,因为我们无法使用数据对其进行测试。为了证明这些假设的合理性,需要其他论据。

作为机器学习和因果推理相遇的一个例子, Mark van der Laan 和 Daniel Rubin 在Targeted Maximum Likelihood Learning中提出的目标最大似然估计的想法通常利用机器学习技术进行非参数估计,然后是“目标" 朝向感兴趣的参数。后者很可能是具有因果解释的参数。超级学习者的想法是严重依赖机器学习技术来估计感兴趣的参数。Mark van der Laan(个人交流)指出,经典的、简单的和“可解释的”统计模型经常是错误的,这导致估计者有偏见,并对估计的不确定性进行过于乐观的评估,这是一个重要的观点。

有一组(相当有限的)用于所谓“因果推理”的统计工具。这些是为实际评估因果关系而设计的,并被证明是正确的。非常好,但不适合内心的温顺(或大脑,就此而言)。

除此之外,在许多情况下,暗示因果关系的能力更多地是您的设计的结果,而不是手头的技术:如果您可以控制实验中的“所有”变量,并且每次都看到某些事情发生(仅)更改一个变量,将发生的事情称为您更改的事情的“后果”是合理的(不幸的是,在实际研究中,这些极端情况很少真正发生)。另一个直观但合理的推理是基于时间的:如果您随机(但以受控方式)更改一个变量,然后在第二天更改另一个变量,因果关系也即将到来。

无论您使用哪种方法来查找哪些变量在哪些条件下发生变化,我的所有第二段基本上都有效,因此至少从理论上讲,机器学习 (ML) 没有理由比基于统计的方法更差。

免责声明:以下高度主观的段落

然而,根据我的经验,机器学习技术常常只是在数据块上松散,而不考虑数据来自何处或如何收集(即无视设计)。在这些情况下,结果经常会出现波动,但很难说出有关因果关系的有用信息。当对相同的数据运行某种统计上合理的方法时,它们是完全相同的。但是,具有强大统计背景的人被训练对这些问题持批评态度,如果一切顺利,将避免这些陷阱。也许仅仅是机器学习技术的早期(但草率)采用者的心态(通常不是新技术的开发人员,而是那些渴望在他们感兴趣的领域用它们“证明”某些结果的人),这使机器学习在这方面声名狼藉帐户。(请注意,我并不是说统计数据比 ML 更好,或者说所有做 ML 的人都是草率的,而那些做统计的人不是)

我的观点是,经济学和其他社会科学中使用的模型只有在它们对现实世界具有预测能力的情况下才有用——一个不能预测现实世界的模型只是一些聪明的数学。我对同事最喜欢的一句话是“数据为王”。

在我看来,您的问题引发了对预测方法的两个批评。首先,您指出机器学习技术产生的模型可能无法解释其次,您认为社会科学人员使用的方法在揭示因果关系方面比机器学习更有用。

为了解决第一点,我将提供以下反驳论点。目前机器学习的流行趋势偏向于外行根本不容易理解的方法(如 SVM 和 NN)。这并不意味着所有机器学习技术都具有此属性。例如,古老的 C4.5 决策树在其发展的最后阶段 20 年后仍然被广泛使用,并产生许多分类规则作为输出。我认为这些规则比对数优势比等概念更适合解释,但这是一种主观主张。无论如何,这样的模型是可以解释的。

在谈到第二点时,我承认,如果您在一个环境中训练机器学习模型,并在另一个环境中对其进行测试,它可能会失败,但是,没有理由先验地假设这对于更传统的模型:如果您在一组假设下构建模型,然后在另一组假设下对其进行评估,您将得到糟糕的结果。借用计算机编程中的一句话:“垃圾进,垃圾出”同样适用于机器学习和设计模型。

不,因果推理是机器学习研究的一个活跃领域,例如查看本次研讨会和次研讨会的会议记录。然而,我要指出,即使因果推理或模型解释是您的主要兴趣,并行尝试不透明的纯预测方法仍然是一个好主意,这样您就会知道坚持是否会导致显着的性能损失一个可解释的模型。