数据挖掘 - 机器学习项目中的预测与因果关系 - 吾爱随笔录

机器学习项目中的预测与因果关系

数据挖掘机器学习深度学习数据挖掘特征选择特征工程

2021-09-17 03:07:56

我正在执行一项分类任务，并且能够识别重要的预测变量（使用随机森林的重要特征），这些预测变量可以帮助分离类或影响结果。

但我在网上读到prediction models are not causal models。

假设我的预测模型表明这Age是影响结果（死亡）的重要因素之一，我如何证明这Age是导致死亡的原因。

我读到，对模型强预测因子的任何干预/更改都不一定会影响结果。

如何找出真正导致结果变化的因素列表？

目前我所做的是运行一个 RF 模型来识别重要特征并传达这些top 5特征似乎会影响结果。

我如何证明这是因果关系而不仅仅是相关性？

2个回答

ML 问题主要关注预测，但我们可以推断（在某种意义上）因果关系。

首先，这是两种不同的建模方法：

因果推理的重点是了解发生了什么 $Y$ 当你改变 $X$ . 预测的重点是了解下一个 $Y$ 给定 $X$

当前的一些因果方法是随机测试，做微积分等......

那么我们如何推断标准预测 ML 模型的因果推理呢？

反事实解释我们可以为机器学习模型的预测模拟反事实，我们只需在进行预测之前更改实例的特征值，然后分析预测如何变化。在这里阅读更多关于它的信息，并且有一个名为alibi的 python 库实现了它。

我同意你对事情的评估。ML 更关心的是做出预测，例如，计量经济学或统计学等学科努力寻找变量之间的因果关系。

ML 擅长在数据中发现模式并将这些模式用于分类和预测。计量经济学分享机器学习者对分类和预测的兴趣，以及统计学家对样本代表性和抽样方差的关注。顺便说一句，统计学的诞生源于对有效处理数据的渴望，主要是通过从更大的感兴趣人群中抽取相对较小的样本，而不是收集每个人的数据。如您所知，ML 世界中的人们会尝试使用尽可能多的数据，而统计世界中的人们正在对人群进行抽样，并理解一小部分代表整个人群，这已经足够了对于正在进行的分析。

现在，回到你关于证明因果关系的问题。相关性是一种统计技术，它告诉我们这对变量线性相关并一起变化的程度。因果关系比相关性更进一步；它说一个变量值的任何变化都会导致另一个变量值的变化，这意味着一个变量会导致另一个变量发生。这被称为因果关系。本质上，我们可以从精心设计的随机对照实验中推断出因果关系。随机和受控并不直观地属于一起，但它是一个复杂的动态。想想捕食者 - 猎物模型。随着猎物数量的增加，可以存在更多的捕食者，但过多的捕食者会使猎物数量锐减，因此捕食者的数量会减少，然后猎物的数量就会增加。

我做了一个快速的谷歌搜索并想出了几个链接，这似乎在这两个学科之间进行了不错的比较。

https://towardsdatascience.com/why-correlation-does-not-imply-causation-5b99790df07e

https://medium.com/causal-data-science/if-correlation-doesnt-imply-causation-then-what-does-c74f20d26438

希望有帮助！！！

其它你可能感兴趣的问题

上一篇寻找异常值的机器学习方法下一篇使用 RNN 进行 k 折交叉验证