处理分层类别自变量

数据挖掘 分类 熊猫 分层数据格式 虚拟变量
2022-02-21 18:21:44

我有具有巨大分类属性的数据。

例如,main_column、sub_column1、sub_column2 是 3 个分层属性。如果如果在这些列上采用虚拟变量,则列数将增加到 1000。

如何处理分类问题的这种分层属性?

谢谢 !!

1个回答

我建议如下:

  • 3 个功能,每个级别一个main_column, sub_column1,sub_column2
  • 表示层次关系的 2 个附加特征:
    • main_column/sub_column1
    • main_column/sub_column1/sub_column2

main_column通过这种方式,训练可以在、main_column/sub_column1之间选择信息量最大的信息级别main_column/sub_column1/sub_column2根据所使用的数据和算法,丢弃子类别的罕见情况并改用一种“杂项”类别也可能是有意义的。