在随机森林中,每棵树都是通过选择替换样本(引导程序)构建的。我假设 Gradient Boosting 的树是使用相同的采样技术选择的。(@BenReiniger 纠正了我)。 这里有为 Catboost 实施的采样技术
我的问题:
- 为什么 Gradient Boosting 采样不进行替换?
- 为什么用替换取样最糟糕?
- GB 中是否有任何可替换的采样技术?
我为 SGB 引用了一篇论文:
随机梯度提升是标准梯度提升算法的随机版本...通过使用完整数据集的子采样将随机性添加到树构建过程中。对于 boosting 过程的每一次迭代,SGB 的采样算法随机选择 s·N 个对象,无需放回且均匀