机器算法验证 - 为什么特征 bagging 样本的大小通常是总预测器集大小的平方根？ - 吾爱随笔录

为什么特征 bagging 样本的大小通常是总预测器集大小的平方根？

机器算法验证数理统计特征选择随机森林装袋

2022-04-16 06:43:05

如果预测变量集大小合适，则在随机森林模型的上下文中对每棵树应用特征采样 $p$ ，为什么每个拆分的预测变量样本的大小通常是大小 $m \approx \sqrt{p}$ ?

我明白为什么样本量不足以允许在大多数预测变量中进行选择，但为什么这个精确值？

1个回答

这只是一个推荐的默认值。Leo Breiman 观察到这个值在他研究的分类问题上往往效果很好，但我不知道有任何严格的证明表明这个值必须在所有问题上都发挥最佳作用。事实上，不同的值在特定问题上效果更好的发现似乎表明这样的证明是不可能的。对于 RF 回归，他提出了不同的值。简而言之：你应该调整 $m$ .

其它你可能感兴趣的问题

上一篇在没有多核的情况下，如何在 R 中加快这种相关性计算？下一篇独立系词与学生-吨t具有零相关矩阵的copula？