如何在数据集森林覆盖类型分类问题中合并特征?

数据挖掘 分类 特征选择 特征工程
2022-03-12 12:52:46

森林coverType 数据集包含分布在许多布尔特征中的以下属性。

Wilderness_Area (4 binary columns) / qualitative / 0 (absence) or 1 (presence) / Wilderness area designation
Soil_Type (40 binary columns) / qualitative / 0 (absence) or 1 (presence) / Soil Type designation 

使用 RBF 内核训练 SVC 分类器而不进行属性重新工程需要太多时间。我们可以合并所有 40 个二进制列以形成代表这些列的 Soil_Type 属性。这种方法的优缺点是什么?

另外,我们是否有任何直接的方法可以在 weka 或 sklearn 中实现这一点?

1个回答

在一些分析中,我发现这些列是互斥的,因此创建了一个名为 Soil_Type(0..40 possible values) 的列替换 40 个二进制列,并创建了 Wilderness_Area(0..4 个可能值) 替换 4 个二进制列。这确实提高了分类器(随机森林、决策树)在时间和预测准确性方面的性能。