随机森林是通过仅随机选择某些特征来构建每棵树(有时对训练数据进行装袋)而形成的决策树的集合。显然,他们学习和概括都很好。有没有人对决策树空间进行 MCMC 采样或将它们与随机森林进行比较?我知道运行 MCMC 并保存所有采样树的计算成本可能更高,但我对这个模型的理论特征感兴趣,而不是计算成本。我的意思是这样的:
- 构建一个随机决策树(它可能会执行得很糟糕)
- 类的东西计算树的可能性,或者添加一个项。
- 选择一个随机步骤来更改树并根据可能性进行选择。
- 每 N 步,保存一份当前树的副本
- 回到 3 进行一些大的 N*M 次
- 使用 M 个保存的树的集合进行预测
这会给随机森林带来类似的性能吗?请注意,与随机森林不同,我们不会在任何步骤丢弃好的数据或特征。