我最近与一所大学进行了一次讨论,该大学使用 Random Forrest 变量重要性来发现网络用户的某些行为与其特征之间的因果关系。由于我来自计量经济学,我想知道这是否是一个好方法,因为我直觉上会拟合一个逻辑回归(动作是二元的)并分析它的系数来完成这项任务。为了使其更具体,请考虑以下问题设置:
假设我们有一个数据集它由一个输出变量组成和解释变量. 此外,目标不是预测新的数据点, 但只是为了找到两者之间的因果关系和.
将随机福雷斯特拟合到数据中并在此设置中提取变量重要性会是个好主意吗?
如果是,与线性/逻辑回归系数分析相比,这有什么优缺点?