数据性质:
我有 10 个数字类型和其他 10 个分类的特征,有很多值,最后,使用 one-hot 编码我得到了一个 600 列的矩阵。我的问题是准确度为 0.7,因为我知道其他同行的准确度超过了 0.9。
问题:
目标数据是二进制的,根本不均匀分布。在预处理后盲目尝试from sklearn.linear_model import LogisticRegression并sklearn.svm使用roc_auc_score: .7和.75.
回到基础,我运行这个
train['cible'].value_counts() / train['cible'].count()
并得到
1 0.970791
0 0.029209
Name: cible, dtype: float64
我觉得很有趣,但我怎样才能提高准确性。有什么提示吗?
注意:我将编辑并添加假阳性率和真阳性率,因为我失去了输出,在缩放、丢失数据插补和重新训练模型后需要几个小时。