是否应该对混合数据(分类和数字)进行缩放?

数据挖掘 分类 预处理 可能性 模型选择 特征缩放
2022-02-23 17:48:35

我的数据集包含 13 个属性,包括 10 个数值属性和 3 个分类属性以及目标。它有 180 个观测值

NumFeature1,NumFeature2....NumFeature10,CatFeature1,CatFeature2,CatFeature3, Target

所有分类都是非序的,每个都有以下类别:

CatFeature1:0/1

CatFeature2:0/1/2

CatFeature3:0/1/2/3

这是一个二元分类问题,我们必须预测目标类的每个类的概率。

我对上述数据集有 3 个问题:

Q1- 对于分类特征,我应该使用LabelEncoder()orOneHotEncoder()还是df.get_dummies()应该将自定义标签编码器与 one-hot 编码器结合使用?

Q2-应该Numerical仅对特征进行缩放,还是应该对所有特征进行缩放,包括categorical编码后

Q3-获得二元分类概率的最佳模型应该是什么。到目前为止,我已经尝试过kNN,LogisticRegressionRandomForestClassifierwith predict_proba,但log_loss得分是0.301最好的。

1个回答

Ans 1: get_dummies() 或 (label encoder + one-hot encoder) 可以解决问题。

Ans 2:缩放分类虚拟数据没有意义。它也失去了可解释性。

回答 3:逻辑回归可能会过度拟合,因为您只有 180 个观察值。KNN 可能在少量观察中表现良好,但它不能很好地处理分类变量。随机森林或极端随机森林可能是您最好的选择。但是,ML 中没有“一刀切”的概念。您必须尝试各种算法,看看哪种算法最适合您的数据集。虽然有线性 SVM 和其他算法,但我建议您尝试更简单的算法,否则可能会有点矫枉过正。

祝你好运!