随机森林mtry问题

机器算法验证 随机森林 模型选择
2022-03-14 22:48:01

我只是想了解 mtry 在随机森林中的工作原理。如果我错了,请纠正我。

当您指定 mtry(例如 10)时,它会从您的数据集中获取 10 个随机变量并检查它们是否为一棵树。因此,下一棵树将采用 10 个以上的随机变量,检查它们,依此类推,直到它遍历您指定的 ntree,然后返回最佳/最重要变量的平均估计值?

1个回答

不,这不是它的工作原理。

考虑将一棵树添加到随机森林 (RF) 模型中。

标准的递归分区算法将从所有数据开始,对所有变量和可能的分割点进行详尽的搜索,以找到最能“解释”整个数据的那个——最大程度地减少节点杂质。数据根据最佳分割点进行分割,并在左右叶中依次递归地重复该过程,直到满足一些停止规则。这里的关键是,每次递归分区算法寻找一个分割时,所有变量都包含在搜索中

RF 模型的不同之处在于,当在树中形成每个拆分时,算法会mtry从可用的预测变量集中随机选择变量。因此,当形成每个分割时,会选择 一组不同的随机变量,在其中选择最佳分割点。

因此,对于 RF 使用的大树,至少可以想象,在生长树的同时搜索分割点时,所有变量都可能在某个时间点被使用。