我正在尝试解决高度不平衡的数据集上的分类问题。我正在使用 SMOTE 对少数样本进行过度采样,并对多数样本进行下采样。创建平衡数据集后,我应用了随机森林模型。但是,即使使用平衡的数据集,少数类的预测误差也非常高。可能出了什么问题?
library(DMwR)
new.data <- SMOTE(Clicked ~ ., train, perc.over = 600, perc.under = 80)
table(new.data$Clicked)
rand.forest <- randomForest(Clicked ~., data=new.data, mtry = 7,
importance = TRUE, proximity=TRUE, ntree = 1000
)
#confusion matrix
table(yhat.rf, test$Clicked)
yhat.rf 0 1
0 889 47
1 57 7