嗨,我必须使用一个相关性差且不平衡的数据集。该集合是 2 个类,0 有 96,000 个值,1 有大约 200 个。当我运行随机森林或其他方法时,我得到如下输出:
precision recall f1-score support
0 1.00 1.00 1.00 38300
1 1.00 0.01 0.02 90
avg / total 1.00 1.00 1.00 38390
精度非常高,但它只将一行归为正数?
我尝试在随机森林参数中使用 {class_weight = 'balanced'} 并提供:
micro avg 1.00 1.00 1.00 38390
macro avg 1.00 0.51 0.51 38390
weighted avg 1.00 1.00 1.00 38390
但仍然没有多少积极的猜测?我应该研究过采样吗?