randomForest 实现不允许超过观察次数的采样,即使在替换采样时也是如此。为什么是这样?
工作正常:
rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE)
rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE)
我想做的事:
rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE)
Error in randomForest.default(m, y, ...) :
sampsize can not be larger than class frequency
没有分层样本的类似错误:
rf <- randomForest(Species ~ ., iris, sampsize=151, replace=TRUE)
Error in randomForest.default(m, y, ...) : sampsize too large
由于我希望在两种情况下给定 replace=TRUE 时该方法都会获取引导样本,因此我没想到会有这个限制。
我的目标是将其与分层抽样选项一起使用,以便从相对稀有的类别中抽取足够大的样本。