我有13 个变量(数字和分类特征的混合)的大约18 万个观测值的数据集。这是二元分类问题,但类不平衡(负类为 25:1)。我想部署 XGBoost(在 R 中)并达到最好的 Precision & Recall。为了处理不平衡,我尝试了正类的上采样,以及正类的 XGB 高权重。然而,尽管 Recall 相当高,但Precision 却很差(大约 0.10)。
我为 XGB 调整的参数:
随机搜索参数 - 10 次交互
5倍简历
参数间隔:max_depth = 3-10 lambda = 0 - 50 gamma = 0 -10 min_child_weight = 1 -10 eta = 0.01-0.20
然后,我尝试了带有上采样数据集的随机森林,它在Recall 0.88 和Precision 0.73(在测试数据集上)的表现非常出色。
有人可以告诉我,如果 RF 有可能远远优于 XGB,或者这表明我做错了什么?非常感谢你。