嗨,我正在开发欺诈预测模型。因为这是一个高度不平衡的分类问题,所以我选择尝试通过随机森林来解决它。
受这篇文章
http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf
的启发,
我选择尝试平衡随机森林。
现在我不确定如何在 R 中实现这些森林。
文章建议:对于随机森林中的每次迭代,从少数类中抽取一个引导样本。
从多数类中随机抽取相同数量的案例,并进行替换。
这是通过指定这些参数来实现的吗?
replace = TRUE
strata = fraud.variable
sampsize = c(x,x) where x is the size of samples to be drawn