我认为谈论两种现成的最佳集成方法会很有趣:随机森林和提升。
- 你什么时候会应用一种方法而不是另一种?
我认为谈论两种现成的最佳集成方法会很有趣:随机森林和提升。
刚开始,一个快速的想法。
随机森林可以并行运行,而且训练起来要快得多,而 Boosting 是一种迭代算法。但是,Boosting 可能会在早期迭代方面收敛。
当有许多嘈杂的特征时,提升可能会过拟合,但随机森林也有。
另一方面,他们的目标几乎是相似的:产生许多不同的弱学习器,彼此尽可能地不同。随机森林通过随机化来解决问题,而 Boosting 则专注于先前模型的错误分类示例以构建不同的模型。
我会使用样本中表现更好的那个。
到目前为止,我发现不可能先验地判断哪种模型更适合新问题。