一旦我在 R 中建立了一个(回归)随机森林模型,该调用rf$importance
为我提供了每个预测变量的两个度量,%IncMSE
并且IncNodePurity
. 具有较小值的预测变量的解释是否%IncMSE
比具有较大值的预测变量更重要%IncMSE
?
怎么样IncNodePurity
?
一旦我在 R 中建立了一个(回归)随机森林模型,该调用rf$importance
为我提供了每个预测变量的两个度量,%IncMSE
并且IncNodePurity
. 具有较小值的预测变量的解释是否%IncMSE
比具有较大值的预测变量更重要%IncMSE
?
怎么样IncNodePurity
?
%IncMSE 是最可靠和信息最丰富的衡量标准。这是由于变量 j 被置换(值随机打乱)而导致的预测 mse 的增加(使用 out-of-bag-CV 估计)。
数字越大,越重要
IncNodePurity 与选择最佳分割的损失函数有关。损失函数是回归的 mse 和分类的 gini-impurity。更有用的变量实现节点纯度的更高增加,即找到具有高节点间“方差”和较小节点内“方差”的拆分。IncNodePurity 是有偏差的,只有在计算 %IncMSE 的额外计算时间不可接受时才应使用。由于计算 %IncMSE 只需要大约 5-25% 的额外时间,因此这几乎不会发生。