我有具有巨大分类属性的数据。
例如,main_column、sub_column1、sub_column2 是 3 个分层属性。如果如果在这些列上采用虚拟变量,则列数将增加到 1000。
如何处理分类问题的这种分层属性?
谢谢 !!
我有具有巨大分类属性的数据。
例如,main_column、sub_column1、sub_column2 是 3 个分层属性。如果如果在这些列上采用虚拟变量,则列数将增加到 1000。
如何处理分类问题的这种分层属性?
谢谢 !!
我建议如下:
main_column, sub_column1,sub_column2main_column/sub_column1main_column/sub_column1/sub_column2main_column通过这种方式,训练可以在、main_column/sub_column1、之间选择信息量最大的信息级别main_column/sub_column1/sub_column2。根据所使用的数据和算法,丢弃子类别的罕见情况并改用一种“杂项”类别也可能是有意义的。