我正在尝试使用随机森林模型(回归类型)代替逻辑回归模型。我正在使用 R - randomForest 包。我想通过示例了解变量重要性(%IncMSE 和 IncNodePurity)的含义。
假设我有 100 名员工,其中 30 人离开了公司。假设在一个特定的决策树中,人口被一个属性(比如位置)分成两个节点。一个节点包含 50 名员工,其中 10 人离开公司,另一个节点包含 50 名员工,其中 20 人离开公司。有人可以向我展示 %IncMSE 和 IncNodePurity 的计算。(如果需要平均值等,请考虑另一个决策树)
这可能看起来像是一个重复的问题,但我找不到一个可行的例子。