我正在尝试的 Kaggle 比赛中有一个不平衡的数据集。数据集的目标变量是二进制的,它偏向于 0。 0 - 70% 1 - 30% 我尝试了几种机器学习算法,如逻辑回归、随机森林、决策树等。但所有这些算法的准确率都在 70% 左右. 似乎模型总是倾向于预测 0。所以我尝试了几种方法来获得如下所示的无偏数据集。
- 使用 SMOTE 和其他技术对数据集进行上采样。
- 欠采样数据集
- 改变模型的重量。
但是所有这些步骤都降低了准确性而不是提高了准确性。曲线下面积和精度有所提高,但不幸的是我必须以某种方式提高精度才能赢得比赛。
因此,如果您能告诉我有关提高不平衡数据集准确性的技术,我将不胜感激。