合奏技术 - Bagging | 子集大小

数据挖掘 集成建模 集成学习
2022-03-13 17:17:51

我确实对集成技术 Baggging/Boosting 有疑问。- Bagging 的子集大小是多少?

2个回答

就像在之前的答案中所说的那样,确切的子样本参数值取决于您的数据。

但是通常可以为您带来良好结果并且不会对数据分布造成太大影响的常用起始参数是0.9

在每次迭代或新构建的树中取出 10% 的数据,使您的模型泛化效果更好一些。您可以尝试 0.9 的不同变体并查看结果。

Bagging 描述了基于您创建的对随机数据子集进行训练的多个模型的平均结果进行预测。

例如,在 scikit 中,您可以配置 Bagging 模型max_samples以告诉他要使用多少个子集。(参见 sklearn 文档:https ://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html )

如果你问它“应该”多高,答案取决于你的训练数据总量。