在 RandomForest 中选择 mtry 进行分类和回归的主要差异背后的原因是什么?

机器算法验证 r 机器学习 分类 随机森林
2022-03-16 06:55:02

mtry的默认/recommended 值对于回归任务是P/3而对于分类任务它是SquareRoot(P)其中 P 是变量数)

根据我的理解,RF 背后的基本思想是在随机森林中使用较小的变量子集来创建弱且多样化的分类器,并将它们聚合成一个更强的分类器。

但是我找不到任何关于为什么回归任务默认为 P/3 而不是SquareRoot(P)的具体文档。

它是随机森林特有的吗?如果是,那是什么?

或者

它是否更基本,例如决定 RF 的回归/分类树的性能/构造之间的差异。

我不是在寻找一个完整的简化答案,只是指向正确的文献链接:)

谢谢!

2个回答

我找到的唯一有用的来源是 RF 本身的原始论文:http: //machinelearning202.pbworks.com/w/file/fetch/60606349/breiman_randomforests.pdf

引用“回归和分类之间一个有趣的区别是,随着使用的特征数量的增加,相关性增加得非常缓慢。主要影响是 PE*( 树) 的减少。因此,需要相对大量的特征来减少PE*(tree) 并获得接近最优的测试集错误。”

所以基本上在分类中,随着分割特征的增加,强度并没有增加太多,但是相关性确实增加了,所以他们建议使用更少的特征。在回归中,树的强度增加(误差减少),而相关性缓慢增加,因此使用更多的特征来获得最佳性能。

我想你可以阅读他们在不同数据集上的实验,其中包括分类和回归的许多特征,并得出你自己的结论。

机器学习算法中超参数的良好默认值必须在数据集上凭经验找到(如果有一个好的理论来设置它们,它们就不再是超参数了)。

可能它在某些数据集上为特定包的创建者显示了良好的性能,所以他选择了这个值。

我正在对许多数据集进行一些研究,我的目标之一是找到一般的最佳默认值。