一个热编码器将更多列添加到数据中,编码特征中的每个类别都有一个列。在下面的示例中,该列City被转换为 4 个其他列。假设在数据集上运行决策树,下面是其中的一部分,City_Chicago并且City_New_York似乎在最重要的特征中,而City_Detroit在最不重要的特征City_SanFrancisco中。如果我从我的数据集中删除City_Detroit和删除City_SanFrancisco,但保留City_Chicago和City_New_York/或是否需要保留所有城市特征,因为它们是一个初始特征的一部分,会有什么问题吗?
|---------------------|------------------|-------------|---------------|---------------|
| City | City_SanFrancisco| City_Detroit| City_New_York | City_Chicago |
|---------------------|------------------|-------------|---------------|---------------|
| San Francisco | 1 | 0 | 0 | 0 |
|---------------------|------------------|-------------|---------------|---------------|
| Detroit | 0 | 1 | 0 | 0 |
|---------------------|------------------|-------------|---------------|---------------|
| New York | 0 | 0 | 1 | 0 |
|---------------------|------------------|-------------|---------------|---------------|
| Chicago | 0 | 0 | 0 | 1 |
|---------------------|------------------|-------------|---------------|---------------|