我现在有一个基本但相当复杂的问题要解决。假设我的训练集中有 20,000 个样本的训练集,其中 3% 到 4% 被标记为“真”,其余的被标记为“假”。我想训练一个分类器(通常是 XGBClassifier 或 LGBMClassifier 是我使用过的那些)。
我目前正在做的是使用 GridSearchCV 找到最佳参数。但我的目标是尽量减少我在测试集上尝试时标记为“真”的样本数量。我是否应该使用典型的 F1 指标训练算法,然后才找到适合我需要的最佳阈值?或者我应该创建一个自定义指标,隐含地强制算法不要将太多样本标记为正数?
希望这很清楚!