使用随机福雷斯特变量重要性进行因果推理是一种可靠的方法吗?

机器算法验证 机器学习 随机森林 推理 因果关系 重要性
2022-04-14 01:39:37

我最近与一所大学进行了一次讨论,该大学使用 Random Forrest 变量重要性来发现网络用户的某些行为与其特征之间的因果关系。由于我来自计量经济学,我想知道这是否是一个好方法,因为我直觉上会拟合一个逻辑回归(动作是二元的)并分析它的系数来完成这项任务。为了使其更具体,请考虑以下问题设置:

假设我们有一个数据集D=(X,y)它由一个输出变量组成yd解释变量X=(X1,,Xd). 此外,目标不是预测新的数据点y, 但只是为了找到两者之间的因果关系Xy.

将随机福雷斯特拟合到数据中并在此设置中提取变量重要性会是个好主意吗?

如果是,与线性/逻辑回归系数分析相比,这有什么优缺点?

2个回答

在基于树的模型的上下文中,与参数估计类似的概念不是变量重要性,它们是部分依赖图

回想一下,当所有其他特征保持不变时,回归中的参数估计可以解释为对改变特征的预测的影响。

在回归(没有基础扩展或交互)中,这种变化的影响相对于特征的变化是线性的(或者在 glm 的链接尺度上是线性的),因此它可以用一个数字来概括。在更复杂的模型中,这种效应不再是线性的,而是曲线。可以绘制这些曲线,其结果称为部分依赖图

因此,例如,如果您从拟合线性回归模型(没有基础扩展或交互)制作部分依赖图,则生成的曲线是斜率是参数估计值的线。

这是这个想法的快速概述,并带有一些入门代码。

是的,可以从 RF 模型中提取因果解释,但模型需要满足某些要求才能使提取有效。在从简单的线性模型中提取因果推论之前,也需要类似的要求。Zhao & Hastie (2017),“黑盒模型的因果解释”中讨论了这样做的问题论文结论的开头,“与机器学习算法只是黑盒预测模型的传统观点相反,我们认为可以使用部分依赖图(PDP)和个体条件期望(ICE)图从这些模型中提取因果信息。总之,因果解释的成功尝试需要:(1)一个好的预测模型,所以黑盒函数g(希望)接近自然规律f。(2)一些关于因果结构的领域知识,以保证后门条件得到满足。(3)可视化工具,如PDP及其扩展ICE。"