数据挖掘 - Python：如何处理数据集中的分类值来构建模型 - 吾爱随笔录

我有一个训练数据框dfTrain，输出dfTrain.head()如下所示：

    C0 C1                              C2   C3 C4  C5               C6  
0   1  73                 Not in universe   0   0   0  Not in universe
1   2  58  Self-employed-not incorporated   4  34   0  Not in universe
2   3  18                 Not in universe   0   0   0      High school
3   4   9                 Not in universe   0   0   0  Not in universe
4   5  10                 Not in universe   0   0   0  Not in universe

共有 38 个特征，它们都是categorical和numerical。忽略C1和缩放数值特征，我正在尝试建立一个逻辑回归模型。由于数据框具有categorical功能，因此我正在创建另一个具有虚拟变量的数据框。

X = pd.get_dummies(dfTrain)

现在的形状X有 160 个特征，比dfTrain.

然后我将X和y（y目标变量在哪里）传递给逻辑回归分类器

modelLogistic = LogisticRegression(C=10**-2, class_weight = 'balanced')

modelLogistic.fit(X, y)

使用的原因class_weight = 'balanced'是有 17 个类，y并且高度不平衡。

我的问题是：我的方法正确吗？我错过了什么吗？