数据挖掘 - 处理分层类别自变量 - 吾爱随笔录

数据挖掘分类熊猫分层数据格式虚拟变量

2022-02-21 18:21:44

我有具有巨大分类属性的数据。

例如，main_column、sub_column1、sub_column2 是 3 个分层属性。如果如果在这些列上采用虚拟变量，则列数将增加到 1000。

如何处理分类问题的这种分层属性？

谢谢！！

1个回答

我建议如下：

3 个功能，每个级别一个main_column, sub_column1,sub_column2
表示层次关系的 2 个附加特征：
- main_column/sub_column1
- main_column/sub_column1/sub_column2

main_column通过这种方式，训练可以在、main_column/sub_column1、之间选择信息量最大的信息级别main_column/sub_column1/sub_column2。根据所使用的数据和算法，丢弃子类别的罕见情况并改用一种“杂项”类别也可能是有意义的。

其它你可能感兴趣的问题