随机森林如何生成随机森林

机器算法验证 机器学习 r 算法 大车 随机森林
2022-02-04 05:35:17

我不是随机森林专家,但我清楚地了解随机森林的关键问题是(随机)树的生成。你能解释一下树是如何生成的吗?(即树生成使用的分布是什么?)

提前致谢 !

2个回答

主要思想是装袋过程,而不是使树随机化。详细地说,每棵树都建立在从原始集合中替换抽取的对象样本之上;因此,每棵树都有一些它没有见过的对象,这使得整个集成更加异构,从而更好地泛化。

此外,树正在以这样的方式被削弱,即在每次拆分时只mtry考虑 M (或 )随机选择的属性;M 通常是集合中属性数量的平方根。这确保了树的过度拟合较少,因为它们没有被修剪。您可以在此处找到更多详细信息。

另一方面,有一种称为极端随机森林的 RF 变体,其中树以随机方式制作(没有优化分割)——请参阅,我认为这个参考

RF 的实现略有不同。我知道 Salford Systems 的专有实现应该比R 中的普通实现更好。该算法的描述是Friedman-Hastie-Tibshirani 在 ESL 中,第 2 版,第 3 次印刷一整章(第 15 章)专门讨论 RF,我发现它实际上比原始论文更清晰。树构造算法在 p.588 中有详细说明;我不需要在这里复制它,因为这本书可以在线获得。