我正在使用带有 scala 的 spark 来实现决策树和随机森林的多数投票(两者都以相同的方式配置 - 相同的深度,相同数量的基本分类器等)。数据集在基本分类器之间平均分配以进行多数投票。Nemenyi 测试表明,多数投票明显更好(对于来自龙骨的 11 个基准数据集)。
据我了解,这两种方法之间的区别在于,用于训练随机森林(基分类器)的数据可能无法汇总到整个数据集。我的理解正确吗?如果是这样,观察到的差异可能是什么原因?
另外,你能指出我比较这两种方法的任何文章吗?
编辑:如果有人对此主题感兴趣,这里有一篇文章比较 bagging 与水平分区,支持后者。