在随机森林中,更大的 %IncMSE 是更好还是更差?

机器算法验证 r 特征选择 随机森林
2022-02-09 05:38:38

一旦我在 R 中建立了一个(回归)随机森林模型,该调用rf$importance为我提供了每个预测变量的两个度量,%IncMSE并且IncNodePurity. 具有较小值的预测变量的解释是否%IncMSE比具有较大值的预测变量更重要%IncMSE

怎么样IncNodePurity

1个回答

%IncMSE 是最可靠和信息最丰富的衡量标准。这是由于变量 j 被置换(值随机打乱)而导致的预测 mse 的增加(使用 out-of-bag-CV 估计)。

  1. 种植回归林。计算OOB-mse,将其命名为mse0。
  2. for 1 to j var:置换列 j 的值,然后预测并计算 OOB-mse(j)
  3. 第 j 个的 %IncMSE 是 (mse(j)-mse0)/mse0 * 100%

数字越大,越重要

IncNodePurity 与选择最佳分割的损失函数有关。损失函数是回归的 mse 和分类的 gini-impurity。更有用的变量实现节点纯度的更高增加,即找到具有高节点间“方差”和较小节点内“方差”的拆分。IncNodePurity 是有偏差的,只有在计算 %IncMSE 的额外计算时间不可接受时才应使用。由于计算 %IncMSE 只需要大约 5-25% 的额外时间,因此这几乎不会发生。

一个类似的问题和答案