为不平衡数据选择随机森林的权重,以尽量减少误报

数据挖掘 scikit-学习 随机森林 阶级失衡 网格搜索
2022-02-18 20:35:03

我目前正在处理具有以下分布的不平衡数据的二进制分类任务:

y_train: 4981 positive / 863894 negative samples  
y_test:  128  positive / 128309 negative samples 

目标是追求高精度(尽可能少的假阴性)。

我该如何继续为随机森林选择权重?

我试图y_train通过将权重 1 分配给“负”并将 173 分配给“正”来平衡比率,但这仍然导致所有样本都被分配给负。

在这一点上,我是否应该已经认为这是所使用功能的问题,还是应该尝试使用 GridSearch 分配更高的权重(roc_auc作为评分参数)并首先将决策阈值设置得更高?

1个回答

我完全错过了这样一个事实,即 RandomForestClassifier 接受值“balanced”和“balanced_subsample”以根据文档自动分配权重