机器学习项目中的预测与因果关系

数据挖掘 机器学习 深度学习 数据挖掘 特征选择 特征工程
2021-09-17 03:07:56

我正在执行一项分类任务,并且能够识别重要的预测变量(使用随机森林的重要特征),这些预测变量可以帮助分离类或影响结果。

但我在网上读到prediction models are not causal models

假设我的预测模型表明这Age是影响结果(死亡)的重要因素之一,我如何证明这Age是导致死亡的原因。

我读到,对模型强预测因子的任何干预/更改都不一定会影响结果。

如何找出真正导致结果变化的因素列表?

目前我所做的是运行一个 RF 模型来识别重要特征并传达这些top 5特征似乎会影响结果。

我如何证明这是因果关系而不仅仅是相关性?

2个回答

ML 问题主要关注预测,但我们可以推断(在某种意义上)因果关系。

首先,这是两种不同的建模方法:

因果推理的重点是了解发生了什么Y当你改变X. 预测的重点是了解下一个Y给定X

当前的一些因果方法是随机测试做微积分等......

那么我们如何推断标准预测 ML 模型的因果推理呢?

反事实解释我们可以为机器学习模型的预测模拟反事实,我们只需在进行预测之前更改实例的特征值,然后分析预测如何变化。在这里阅读更多关于它的信息,并且有一个名为alibi的 python 库实现了它。

我同意你对事情的评估。ML 更关心的是做出预测,例如,计量经济学或统计学等学科努力寻找变量之间的因果关系。

ML 擅长在数据中发现模式并将这些模式用于分类和预测。计量经济学分享机器学习者对分类和预测的兴趣,以及统计学家对样本代表性和抽样方差的关注。顺便说一句,统计学的诞生源于对有效处理数据的渴望,主要是通过从更大的感兴趣人群中抽取相对较小的样本,而不是收集每个人的数据。如您所知,ML 世界中的人们会尝试使用尽可能多的数据,而统计世界中的人们正在对人群进行抽样,并理解一小部分代表整个人群,这已经足够了对于正在进行的分析。

现在,回到你关于证明因果关系的问题。相关性是一种统计技术,它告诉我们这对变量线性相关并一起变化的程度。因果关系比相关性更进一步;它说一个变量值的任何变化都会导致另一个变量值的变化,这意味着一个变量会导致另一个变量发生。这被称为因果关系。本质上,我们可以从精心设计的随机对照实验中推断出因果关系。随机和受控并不直观地属于一起,但它是一个复杂的动态。想想捕食者 - 猎物模型。随着猎物数量的增加,可以存在更多的捕食者,但过多的捕食者会使猎物数量锐减,因此捕食者的数量会减少,然后猎物的数量就会增加。

我做了一个快速的谷歌搜索并想出了几个链接,这似乎在这两个学科之间进行了不错的比较。

https://towardsdatascience.com/why-correlation-does-not-imply-causation-5b99790df07e

https://medium.com/causal-data-science/if-correlation-doesnt-imply-causation-then-what-does-c74f20d26438

希望有帮助!!!