在使用 rpart(在 R 中)构建 CART 模型(特别是分类树)时,了解引入模型的各种变量的重要性通常很有趣。
因此,我的问题是: 在 CART 模型中,对参与变量的变量重要性进行排名/测量的常用措施是什么?以及如何使用 R 进行计算(例如,使用 rpart 包时)
例如,这里创建了一些虚拟代码,以便您可以在上面展示您的解决方案。这个例子的结构很明显变量 x1 和 x2 是“重要的”,而(在某种意义上)x1 比 x2 更重要(因为 x1 应该适用于更多的情况,从而对数据的结构产生更大的影响,然后 x2)。
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(总是欢迎参考)