如果您能告诉我如何使用SMOTENC ,我将不胜感激。我写:
num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values)
cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].columns.values)
print(len(num_indices1))
print(len(cat_indices1))
pipeline=Pipeline(steps= [
# Categorical features
('feature_processing', FeatureUnion(transformer_list = [
('categorical', MultiColumn(cat_indices1)),
#numeric
('numeric', Pipeline(steps = [
('select', MultiColumn(num_indices1)),
('scale', StandardScaler())
]))
])),
('clf', rg)
]
)
因此,如前所述,我有 5 个分类特征。实际上,索引 123 到 160 与一个具有 37 个可能值的分类特征相关,这些值使用get_dummies
.
我认为SMOTENC
应该在分类器之前插入,('clf', reg)
但我不知道如何定义 " categorical_features
" in SMOTENC
。此外,你能告诉我在哪里使用imblearn.pipeline吗?
提前致谢。