森林coverType 数据集包含分布在许多布尔特征中的以下属性。
Wilderness_Area (4 binary columns) / qualitative / 0 (absence) or 1 (presence) / Wilderness area designation
Soil_Type (40 binary columns) / qualitative / 0 (absence) or 1 (presence) / Soil Type designation
使用 RBF 内核训练 SVC 分类器而不进行属性重新工程需要太多时间。我们可以合并所有 40 个二进制列以形成代表这些列的 Soil_Type 属性。这种方法的优缺点是什么?
另外,我们是否有任何直接的方法可以在 weka 或 sklearn 中实现这一点?