因果推理如何与机器学习一起使用?

数据挖掘 机器学习 统计数据 关联规则
2022-03-11 21:24:04

我想知道如何在数据科学项目中特别是在哪里Causal inference使用?machine learning我一直在寻找答案,我得出的结论是,可以在建模阶段之后使用因果推理来确认变量与目标/结果之间的一些相关性。

例如,如果模型具有良好的准确性,并为您提供输入A和目标之间的高度相关性/关联性,B您可能希望执行因果推理来验证AB.

我想知道我的理解是否正确,也想知道因果推理在机器学习中是否还有其他应用。

1个回答

你的理解是正确的。找到变量之间的相关性很简单,但是将它们转化为因果断言需要额外的努力。因果推理主要用于以“做 X 以使 Y 发生”的形式达到“处方”。

何时不使用因果推理:

如果可以做实验,就可以避免因果推理。例如,A\B 测试让您研究两组变化的影响并得出因果结论。例如,A\B 测试的结果将是“A 组中的用户看到颜色强度为 50 的按钮比 B 组颜色强度为 40 的用户点击了 10%”,所以 X='增加按钮的颜色强度'这样 Y='more click' 就会发生。使用更大、更统一的组,您的断言会更可靠。

机器学习中的因果推理:

在大多数机器学习项目中,这些类型的实验都是可能的,而且大部分都很便宜,所以为什么要麻烦呢?此外,特别是在预测项目中,价值来自相关关系。因果关系的知识是相关关系的子集,不会增加价值。

因果推断:

当您使用历史数据或者您只能“观察”数据而不影响数据时,因果推理就会发挥作用。一般来说,因果推理是一个有争议的话题,因为它试图从观察数据中提取因果关系(与 A\B 测试中的实验数据相反)。

据我所知,因果推理的主要贡献者是 Judea Pearl 教授。他的基础工具是概率图形模型 (PGM) 和 do-calculus。这些工具让我们可以明确地编码我们对数据生成机制的假设,并得出因果结论。因此,当“做 X,使 Y 发生”之类的断言出错时,我们可以有原则地在假设中跟踪问题。例如,我们可能忽略了一个重要的隐藏变量,如果包含它,我们的结论就会改变。他从根本上说,任何得出“规定性”结论的人都在进行因果推理,所以最好明确地提出你的假设,以防止相关因果问题被忽视。

一些有趣的资源:

  1. 辛普森悖论是对因果推理感兴趣的切入点,
  2. Judea Pearl 的这篇论文将这个悖论与因果推理联系起来。