我已经使用 R 中的随机森林对我的数据创建了一个回归模型。输出非常大,我想知道是否有任何方法可以将其减少到仅进行预测所需的部分?
训练数据集包含 20 个变量和约 45,000 行,这也很大。我的代码在下面列出。
data <- readRDS("data.Rds")
require("data.table")
require("doParallel")
require("randomForest")
train <- data[ which(set == "train")]
test <- data[ which(set == "test")]
rm(data)
x <- data.table(train[, 2:21, with=FALSE])
y <- as.vector(as.matrix(train[, 23, with=FALSE]))
cl <- makeCluster(detectCores())
registerDoParallel(cl, cores=4)
time <- system.time({rf.fit <- foreach(ntree=rep(500, 6),
.combine=combine,
.multicombine=TRUE,
.packages="randomForest") %dopar%
{randomForest(x, y, ntree=ntree)}})
stopCluster(cl)
saveRDS(rf.fit, "rf.fit.Rds")
其输出约为 230 MB。一旦我有了模型,是否可以减小尺寸以使其更易于使用?我的目标是识别重要变量,并对新数据进行预测。