为什么特征 bagging 样本的大小通常是总预测器集大小的平方根?

机器算法验证 数理统计 特征选择 随机森林 装袋
2022-04-16 06:43:05

如果预测变量集大小合适,则在随机森林模型的上下文中对每棵树应用特征采样p,为什么每个拆分的预测变量样本的大小通常是大小mp?

我明白为什么样本量不足以允许在大多数预测变量中进行选择,但为什么这个精确值?

1个回答

这只是一个推荐的默认值。Leo Breiman 观察到这个值在他研究的分类问题上往往效果很好,但我不知道有任何严格的证明表明这个值必须在所有问题上都发挥最佳作用。事实上,不同的值在特定问题上效果更好的发现似乎表明这样的证明是不可能的。对于 RF 回归,他提出了不同的值。简而言之:你应该调整m.