随机森林,类型 - 回归,重要性计算示例

数据挖掘 机器学习 r 逻辑回归 随机森林
2022-03-09 21:11:52

我正在尝试使用随机森林模型(回归类型)代替逻辑回归模型。我正在使用 R - randomForest 包。我想通过示例了解变量重要性(%IncMSE 和 IncNodePurity)的含义。

假设我有 100 名员工,其中 30 人离开了公司。假设在一个特定的决策树中,人口被一个属性(比如位置)分成两个节点。一个节点包含 50 名员工,其中 10 人离开公司,另一个节点包含 50 名员工,其中 20 人离开公司。有人可以向我展示 %IncMSE 和 IncNodePurity 的计算。(如果需要平均值等,请考虑另一个决策树)

这可能看起来像是一个重复的问题,但我找不到一个可行的例子。

1个回答

MSE 是整体回归模型的误差度量,1nyiy^i2

对于一个重要的变量,如果用随机噪声代替,你会想象 MSE 随着错误数据的增加而增加。特定变量的IncMSE(增量 MSE)是如果变量完全随机化,则 MSE 将增加多少。

这通常是根据袋外数据计算的。


节点纯度是衡量节点同质程度的指标。节点纯度的一个例子是信息熵,即p1logp1p0logp0如果有两个类。对于回归模型,节点im纯度通常被视为节点中的方差。

每次拆分节点时,都会使新节点同质化,因此纯度会增加。

变量的IncPurity是增量纯度的加权平均值,因为该变量的每个拆分都用于拆分,以节点人口为权重。