在将 xgboost 用作集成学习中的元学习器之前,我不太确定应该如何调整它。
我应该包含预测矩阵(即 df 包含来自各种基础学习器的预测结果列)还是应该只包含原始特征?
我已经尝试了这两种方法,仅使用 F1 分数调整的“n_estimators”作为交叉验证的指标。(学习率=0.1)
方法一:用pred矩阵+原始特征:
n_estimators = 1 (this means only one tree is included in the model, is this abnormal? )
F1 Score (Train): 0.907975 (suggest overfitting)
方法2:仅使用原始功能:
n_estimators = 1
F1 Score (Train): 0.39
对于这两种方法,我得到了相当不同的结果,这是有道理的,因为方法 1 的特征重要性图表明,第一级预测之一是最重要的。
我认为基础学习者的第一级预测应该包含在网格搜索中。有什么想法吗?