数据挖掘 - 目标数据值分布不均 - 吾爱随笔录

数据性质：

我有 10 个数字类型和其他 10 个分类的特征，有很多值，最后，使用 one-hot 编码我得到了一个 600 列的矩阵。我的问题是准确度为 0.7，因为我知道其他同行的准确度超过了 0.9。

问题：

目标数据是二进制的，根本不均匀分布。在预处理后盲目尝试from sklearn.linear_model import LogisticRegression并sklearn.svm使用roc_auc_score: .7和.75.

回到基础，我运行这个

train['cible'].value_counts() / train['cible'].count()

并得到

1    0.970791
0    0.029209
Name: cible, dtype: float64

我觉得很有趣，但我怎样才能提高准确性。有什么提示吗？

注意：我将编辑并添加假阳性率和真阳性率，因为我失去了输出，在缩放、丢失数据插补和重新训练模型后需要几个小时。