我的数据集包含 13 个属性,包括 10 个数值属性和 3 个分类属性以及目标。它有 180 个观测值
NumFeature1,NumFeature2....NumFeature10,CatFeature1,CatFeature2,CatFeature3, Target
所有分类都是非序的,每个都有以下类别:
CatFeature1:0/1
CatFeature2:0/1/2
CatFeature3:0/1/2/3
这是一个二元分类问题,我们必须预测目标类的每个类的概率。
我对上述数据集有 3 个问题:
Q1- 对于分类特征,我应该使用LabelEncoder()orOneHotEncoder()还是df.get_dummies()应该将自定义标签编码器与 one-hot 编码器结合使用?
Q2-应该Numerical仅对特征进行缩放,还是应该对所有特征进行缩放,包括categorical编码后
Q3-获得二元分类概率的最佳模型应该是什么。到目前为止,我已经尝试过kNN,LogisticRegression和RandomForestClassifierwith predict_proba,但log_loss得分是0.301最好的。