我有一个训练数据框dfTrain,输出dfTrain.head()如下所示:
C0 C1 C2 C3 C4 C5 C6
0 1 73 Not in universe 0 0 0 Not in universe
1 2 58 Self-employed-not incorporated 4 34 0 Not in universe
2 3 18 Not in universe 0 0 0 High school
3 4 9 Not in universe 0 0 0 Not in universe
4 5 10 Not in universe 0 0 0 Not in universe
共有 38 个特征,它们都是categorical和numerical。忽略C1和缩放数值特征,我正在尝试建立一个逻辑回归模型。由于数据框具有categorical功能,因此我正在创建另一个具有虚拟变量的数据框。
X = pd.get_dummies(dfTrain)
现在的形状X有 160 个特征,比dfTrain.
然后我将X和y(y目标变量在哪里)传递给逻辑回归分类器
modelLogistic = LogisticRegression(C=10**-2, class_weight = 'balanced')
modelLogistic.fit(X, y)
使用的原因class_weight = 'balanced'是有 17 个类,y并且高度不平衡。
我的问题是:我的方法正确吗?我错过了什么吗?