我目前正在处理具有以下分布的不平衡数据的二进制分类任务:
y_train: 4981 positive / 863894 negative samples
y_test: 128 positive / 128309 negative samples
目标是追求高精度(尽可能少的假阴性)。
我该如何继续为随机森林选择权重?
我试图y_train通过将权重 1 分配给“负”并将 173 分配给“正”来平衡比率,但这仍然导致所有样本都被分配给负。
在这一点上,我是否应该已经认为这是所使用功能的问题,还是应该尝试使用 GridSearch 分配更高的权重(roc_auc作为评分参数)并首先将决策阈值设置得更高?