我想问你一些关于如何考虑(好或不好)以下结果的问题:
OVER-SAMPLING
precision recall f1-score support
0.0 1.00 0.85 0.92 873
1.0 0.87 1.00 0.93 884
accuracy 0.92 1757
macro avg 0.93 0.92 0.92 1757
weighted avg 0.93 0.92 0.92 1757
Confusion Matrix:
[[742 131]
[ 2 882]]
我有一个包含 3500 个 obs 的数据集(3000 个 0 类和 500 个 1 类)。我想预测第 1 类(目标变量)。由于这是不平衡类的问题,我不得不考虑重新采样的方法。上面显示的结果来自过采样。您是否认为它过拟合和/或对于我的情况来说不是一个好的重新采样方法?我正在查看 f1-score 列,因为它是一个文本分类问题。